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Prefacio 


Objetivo  del  libro 


La  primera  edicion  de  Econometria  se  publico  hace  treinta  anos.  Con  el  transcurso  del  tiempo 
se  registraron  avances  importantes  en  la  teoria  y  la  practica  de  la  econometria.  En  cada  una  de 
las  ediciones  subsiguientes  trate  de  incorporar  los  principales  adelantos  en  el  campo.  La  quinta 
edicion  continua  con  esta  tradicion. 

Sin  embargo,  lo  que  no  ha  cambiado  a  lo  largo  de  todos  estos  anos  es  mi  firme  conviction  de 
que  la  econometria  puede  ensenarse  al  principiante  de  manera  intuitiva  e  informativa  sin  recurrir 
al  algebra  matricial,  el  calculo  o  la  estadistica,  mas  alia  de  un  nivel  elemental.  Parte  del  material 
es  inherentemente  tecnico.  En  ese  caso,  lo  coloque  en  el  apendice  correspondiente  o  remito  al 
lector  a  las  fuentes  apropiadas.  Incluso  entonces,  trate  de  simplificar  el  material  tecnico  para  que 
el  lector  pueda  comprenderlo  de  manera  intuitiva. 

La  longevidad  de  este  libro  ha  sido  para  mi  una  sorpresa  muy  grata,  al  igual  que  el  hecho 
de  que  no  solo  los  estudiantes  de  economia  y  finanzas  lo  usan  comunmente,  sino  tambien  los 
estudiantes  e  investigadores  de  otras  disciplinas,  como  ciencias  politicas,  relaciones  internacio- 
nales,  agronomia  y  ciencias  de  la  salud.  La  nueva  edicion,  con  la  ampliation  de  los  temas  y  las 
aplicaciones  concretas  que  presenta,  sera  muy  util  para  todos  estos  estudiantes.  En  esta  edicion 
dedique  todavia  mas  atencion  a  la  pertinencia  y  oportunidad  de  los  datos  reales  en  el  texto.  De 
hecho,  agregue  unos  quince  ejemplos  ilustrativos  y  mas  de  treinta  ejercicios  al  final  de  los  capi- 
tulos.  Ademas,  actualice  los  datos  de  aproximadamente  dos  docenas  de  ejemplos  y  mas  de  veinte 
ejercicios  de  la  edicion  anterior. 

Aunque  me  encuentro  en  la  octava  decada  de  mi  vida,  no  he  perdido  mi  amor  por  la  econo¬ 
metria,  y  me  esfuerzo  por  mantenerme  al  tanto  de  los  principales  avances  en  el  campo.  Para  ayu- 
darme  en  este  empeno,  me  complace  mucho  contar  ahora  con  la  doctora  Dawn  Porter,  profesora 
adjunta  de  estadistica  de  la  Marshall  School  of  Business  de  la  University  of  Southern  California, 
en  Los  Angeles,  como  coautora.  Ambos  trabajamos  mucho  para  llevar  a  buen  termino  la  quinta 
edicion  de  Econometria. 


Caracteristicas  principales  de  la  quinta  edicion 


Antes  de  explicar  los  cambios  especificos  en  diversos  capitulos,  vale  la  pena  destacar  las  siguien- 

tes  caracteristicas  de  la  nueva  edicion: 

1.  Se  actualizaron  practicamente  todos  los  datos  de  los  ejemplos  ilustrativos. 

2.  Se  agregaron  varios  ejemplos. 

3.  En  varios  capitulos  incluimos  ejemplos  finales  que  ilustran  los  puntos  tratados  en  el  texto. 

4.  Se  incluyen  en  el  libro  listados  de  computadora  relativos  a  varios  ejemplos  concretos.  La  ma- 
yoria  de  estos  resultados  se  basan  en  EViews  (version  6)  y  STATA  (version  10),  asi  como  en 
MINITAB  (version  15). 

5.  Diversos  capitulos  incluyen  varios  diagramas  y  graficos  nuevos. 

6.  Diversos  capitulos  incluyen  varios  ejercicios  basados  en  datos  nuevos. 

7.  Los  datos  de  muestras  pequenas  se  incluyen  en  el  libro,  pero  los  de  muestras  grandes  estan 
en  el  sitio  web  del  libro  con  el  proposito  de  reducir  el  tamano  del  texto.  El  sitio  web  tambien 
publicara  todos  los  datos  del  libro,  mismos  que  se  actualizaran  periodicamente. 
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8.  En  algunos  capitulos  incluimos  ejercicios  para  el  aula  que  requieren  que  los  alumnos  obtengan 
datos  por  su  cuenta  y  apliquen  las  distintas  tecnicas  que  se  explican  en  el  libro.  Tambien  se 
incluyen  algunas  simulaciones  Monte  Carlo  en  el  libro. 


Cambios  especificos  de  la  quinta  edicion 


A  continuacion  se  enumeran  algunos  cambios  que  se  refieren  de  manera  especlfica  a  ciertos 
capitulos: 

1 .  Los  supuestos  en  los  que  se  basa  el  modelo  clasico  de  regresion  lineal  (MCRL)  que  se  pre- 
sentan  en  el  capltulo  3  ahora  marcan  una  distincion  cuidadosa  entre  regresoras  fijas  (varia¬ 
bles  explicativas)  y  regresoras  aleatorias.  Analizamos  la  importancia  de  la  distincion. 

2.  En  el  apendice  del  capitulo  6  se  analizan  las  propiedades  de  los  logaritmos,  las  transforma- 
ciones  Box-Cox  y  varias  formulas  de  crecimiento. 

3.  El  capitulo  7  explica  ahora  no  solo  el  efecto  marginal  de  una  sola  regresora  sobre  la  variable 
dependiente,  sino  tambien  los  efectos  de  cambios  simultaneos  de  todas  las  variables  explica¬ 
tivas  en  la  variable  dependiente.  Este  capitulo  tambien  se  reorganizo  con  la  misma  estructura 
que  los  supuestos  del  capitulo  3. 

4.  En  el  capitulo  1 1  se  presenta  una  comparacion  de  las  diferentes  pruebas  de  heteroscedastici- 
dad. 

5.  Hay  un  nuevo  analisis  del  efecto  de  las  rupturas  estructurales  en  la  autocorrelacion  en  el 
capitulo  12. 

6.  Los  nuevos  temas  incluidos  en  el  capitulo  13  son  datos  faltantes,  termino  de  error  no  normal 
y  regresoras  estocasticas,  o  aleatorias. 

7.  El  modelo  de  regresion  no  lineal  que  se  analiza  en  el  capitulo  14  tiene  una  aplicacion  con- 
creta  de  la  transformacion  Box-Cox. 

8.  El  capitulo  15  contiene  varios  ejemplos  nuevos  que  ilustran  el  uso  de  los  modelos  logit  y 
probit  en  diversos  campos. 

9.  Revisamos  e  ilustramos  cuidadosamente  con  varias  aplicaciones  el  capitulo  16  sobre  mode¬ 
los  de  regresion  con  datos  en  panel. 

10.  El  capitulo  17  incluye  un  analisis  ampliado  de  las  pruebas  de  causalidad  de  Sims  y  Granger. 

11.  En  el  capitulo  2 1  se  presenta  un  analisis  minucioso  de  las  series  de  tiempo  estacionarias  y  no 
estacionarias,  asi  como  algunos  problemas  relacionados  con  varias  pruebas  de  estacionarie- 
dad. 

12.  El  capitulo  22  incluye  una  exposition  de  razones  por  las  que  tomar  las  primeras  diferencias 
de  una  serie  de  tiempo  con  el  proposito  de  volverla  estacionaria  puede  no  ser  la  estrategia 
mas  adecuada  en  algunas  situaciones. 

Ademas  de  estos  cambios  especificos,  corregimos  los  errores  tipograficos  y  de  otro  tipo  de  edi- 
ciones  anteriores  y  simplificamos  los  analisis  de  varios  temas  en  los  diferentes  capitulos. 


Organization  y  opciones 


La  extensa  cobertura  en  esta  edicion  proporciona  al  maestro  flexibilidad  considerable  para  elegir 
los  temas  apropiados  para  el  publico  al  que  se  dirige.  Aqui  se  dan  algunas  sugerencias  respecto  a 
como  podria  utilizarse  la  obra. 

Curso  de  un  semestre  para  los  no  especialistas:  Apendice  A,  capitulos  1  al  9  y  un  repaso 
general  de  los  capitulos  10,  11  y  12  (sin  las  demostraciones). 

Curso  de  un  semestre  para  estudiantes  de  economla:  Apendice  A  y  los  capitulos  1  al  13. 
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Curso  de  dos  semestres  para  estudiantes  de  economia:  Apendices  A,  B  y  C,  y  capitulos  1 
al  22.  Los  capitulos  14  y  16  son  opcionales.  Pueden  omitirse  algunos  apendices  tecnicos. 
Estudiantes  de  maestria  y  posgrado  e  investigadores:  Este  libro  es  un  util  manual  de 
consulta  de  los  temas  principales  de  la  econometria. 


Suplementos 


Un  sitio  web  muy  completo  contiene  el  siguiente  material  suplementario: 

-Datos  del  texto,  asi  como  datos  adicionales  de  conjuntos  grandes  a  los  que  se  hace  referencia 
en  el  libro;  los  autores  actualizaran  los  datos  periodicamente. 

-Un  Manual  de  soluciones,  preparado  por  Dawn  Porter,  proporciona  las  respuestas  a  todas  las 
preguntas  y  problemas  que  se  presentan  en  el  texto. 

-Una  biblioteca  de  imagenes  digitales  que  contiene  todos  los  graficos  y  figuras  del  texto. 

Encontrara  mas  informacion  en  www.mhhe.com/gujarati5e.  Consulte  terminos  y  condiciones 
con  su  representante  McGraw-Hill  mas  cercano. 
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Introduccion 


1.1  ^Que  es  la  econometria? 


En  terminos  literales  econometria  significa  “medicion  economica”.  Sin  embargo,  si  bien  es  cierto 
que  la  medicion  es  una  parte  importante  de  la  econometria,  el  alcance  de  esta  disciplina  es  mucho 
mas  amplio,  como  se  deduce  de  las  siguientes  citas: 

La  econometria,  resultado  de  cierta  perspectiva  sobre  el  papel  que  desempena  la  economla,  consiste 
en  la  aplicacion  de  la  estadlstica  matematica  a  los  datos  economicos  para  dar  soporte  empirico  a  los 
modelos  construidos  por  la  economla  matematica  y  obtener  resultados  numericos.1 

...  la  econometria  puede  definirse  como  el  analisis  cuantitativo  de  fenomenos  economicos  reales, 
basados  en  el  desarrollo  simultaneo  de  la  teorla  y  la  observation,  relacionados  mediante  metodos 
apropiados  de  inferencia.2 

La  econometria  se  define  como  la  ciencia  social  en  la  cual  las  herramientas  de  la  teoria  economica, 
las  matematicas  y  la  inferencia  estadlstica  se  aplican  al  analisis  de  los  fenomenos  economicos.3 

La  econometria  tiene  que  ver  con  la  determination  empirica  de  las  leyes  economicas.4 

El  arte  del  econometrista  consiste  en  encontrar  un  conjunto  de  supuestos  lo  bastante  especificos  y 
realistas  para  que  le  permitan  aprovechar  de  la  mejor  manera  los  datos  con  que  cuenta.5 

Los  econometristas. . .  son  una  ayuda  decisiva  en  el  esfuerzo  por  disipar  la  mala  imagen  publica  de  la 
economia  (cuantitativa  o  de  otro  tipo)  considerada  como  una  materia  en  la  cual  se  abren  cajas  vacias, 
suponiendo  la  existencia  de  abrelatas,  para  revelar  un  contenido  que  diez  economistas  interpretaran 
de  1 1  maneras  diferentes.6 

El  metodo  de  la  investigation  econometrica  busca  en  esencia  una  conjuncion  entre  la  teoria  econo¬ 
mica  y  la  medicion  real,  con  la  teoria  y  la  tecnica  de  la  inferencia  estadlstica  como  puente.7 


1  Gerhard  Tintner,  Methodology  of  Mathematical  Economics  and  Econometrics,  The  University  of  Chicago  Press, 
Chicago,  1968,  p.  74. 

2  P.A.  Samuelson,  T.C.  Koopmans  y  J.R.N.  Stone,  "Report  of  the  Evaluative  Committee  for  Econometrica" , 
Econometrica,  vol.  22,  num.  2,  abril  de  1954,  pp.  141-146. 

3  Arthur  S.  Goldberger,  Econometric  Theory,  John  Wiley  &  Sons,  Nueva  York,  1 964,  p.  1 . 

4  H.  Theil,  Principles  of  Econometrics,  John  Wiley  &  Sons,  Nueva  York,  1971,  p.  1 . 

5  E.  Malinvaud,  Statistical  Methods  of  Econometrics,  Rand  McNally,  Chicago,  1966,  p.  514. 

6  Adrian  C.  Darnell  y  ).  Lynne  Evans,  The  Limits  of  Econometrics,  Edward  Elgar,  Hants,  Inglaterra,  1990,  p.  54. 

7T.  Haavelmo,  "The  Probability  Approach  in  Econometrics",  suplemento  de  Econometrica,  vol.  12,  1944, 
prefacio,  p.  iii. 
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1.2  ^Por  que  una  disciplina  aparte? 


Como  indican  las  definiciones  anteriores,  la  econometria  es  una  amalgama  de  teoria  economica, 
economia  matematica,  estadistica  economica  y  estadistica  matematica.  Aun  asi,  la  materia  me- 
rece  un  estudio  separado  por  las  siguientes  razones. 

La  teoria  economica  hace  afirmaciones  o  formula  hipotesis  de  naturaleza  sobre  todo  cuali- 
tativa.  Por  ejemplo,  la  teoria  microeconomica  establece  que,  si  no  intervienen  otros  factores,  se 
espera  que  la  reduccion  del  precio  de  un  bien  aumente  la  cantidad  demandada  de  ese  bien.  Asi, 
la  teoria  economica  postula  una  relacion  negativa  o  inversa  entre  el  precio  y  la  cantidad  deman¬ 
dada  de  un  bien.  Pero  la  teoria  por  si  sola  no  proporciona  medida  numerica  alguna  de  la  relacion 
entre  los  dos;  no  dice  cuanto  aumentara  o  se  reducira  la  cantidad  como  resultado  de  un  cambio 
determinado  en  el  precio  del  bien.  El  trabajo  del  econometrista  es  proporcionar  tales  estimacio- 
nes  numericas.  En  otras  palabras,  la  econometria  da  contenido  empirico  a  gran  parte  de  la  teoria 
economica. 

El  interes  principal  de  la  economia  matematica  es  expresar  la  teoria  economica  en  una  forma 
matematica  (ecuaciones)  sin  preocuparse  por  la  capacidad  de  medicion  o  de  verificacion  empi- 
rica  de  la  teoria.  La  econometria,  como  ya  apuntamos,  se  interesa  sobre  todo  en  la  verificacion 
empirica  de  la  teoria  economica.  Como  veremos,  el  econometrista  suele  emplear  ecuaciones 
matematicas,  propuestas  por  el  economista  matematico,  pero  las  expresa  de  forma  que  se  presten 
para  la  prueba  empirica.  Y  esta  conversion  de  ecuaciones  matematicas  en  ecuaciones  econome- 
tricas  requiere  una  gran  dosis  de  ingenio  y  destreza. 

La  estadistica  economica  se  relaciona  en  primer  lugar  con  la  recopilacion,  procesamiento  y 
presentacion  de  cifras  economicas  en  forma  de  graficos  y  tablas.  Este  es  el  trabajo  del  estadistico 
economico,  cuya  actividad  principal  consiste  en  recopilar  cifras  sobre  el  producto  nacional  bruto 
(PNB),  empleo,  desempleo,  precios,  etc.  Los  datos  asi  reunidos  constituyen  la  materia  prima  del 
trabajo  econometrico.  Pero  el  estadistico  economico  no  va  mas  alia  de  la  recoleccion  de  informa- 
cion,  pues  no  le  conciernen  las  cifras  recopiladas  para  probar  las  teorias  economicas.  Sin  duda, 
es  el  econometrista  quien  se  ocupa  de  realizar  esta  labor. 

Aunque  la  estadistica  matematica  proporciona  muchas  herramientas  para  esta  ciencia,  el  eco¬ 
nometrista  a  menudo  necesita  metodos  especiales  por  la  naturaleza  unica  de  la  mayoria  de  las 
cifras  economicas,  pues  no  se  generan  como  resultado  de  un  experimento  controlado.  El  econo¬ 
metrista,  como  el  meteorologo,  suele  depender  de  cifras  que  no  controla  directamente.  Como 
observa  Spanos,  acertadamente: 

En  econometria,  el  que  construye  el  modelo  a  menudo  se  enfrenta  a  datos  provenientes  de  la  obser¬ 
vation  mas  que  de  la  experimentation.  Esto  tiene  dos  implicaciones  importantes  para  la  creation 
empirica  de  modelos  en  econometria.  Primero,  se  requiere  que  quien  elabore  modelos  domine  muy 
distintas  habilidades  en  comparacion  con  las  que  se  necesitan  para  analizar  los  datos  experimenta- 
les...  Segundo,  la  separation  de  quien  recopila  los  datos  y  el  analista  exige  que  quien  elabora  mode¬ 
los  se  familiarice  por  complete  con  la  naturaleza  y  la  estructura  de  los  datos  en  cuestion.8 
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qComo  proceden  los  econometristas  en  el  analisis  de  un  problema  economico?  Es  decir,  ^cual 
es  su  metodologia?  Aunque  existen  diversas  escuelas  de  pensamiento  sobre  metodologia  eco- 
nometrica,  aqui  presentaremos  la  metodologia  tradicional  o  clasica,  que  aun  predomina  en  la 
investigation  empirica  en  economia  y  en  las  ciencias  sociales  y  del  comportamiento.9 


8  Aris  Spanos,  Probability  Theory  and  Statistical  Inference:  Econometric  Modeling  with  Observational  Data,  Cam¬ 
bridge  University  Press,  Reino  Unido,  1999,  p.  21. 

9  Hay  un  analisis  ilustrativo,  si  bien  avanzado,  de  los  metodos  econometricos  en  David  F.  Hendry,  Dynamic 
Econometrics,  Oxford  University  Press,  Nueva  York,  1995.  Vease  tambien  Aris  Spanos,  op.  cit. 
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En  terminos  generates,  la  metodologia  econometrica  tradicional  se  ajusta  a  los  siguientes  li- 
neamientos: 

1 .  Planteamiento  de  la  teoria  o  de  la  hipotesis. 

2.  Especificacion  del  modelo  matematico  de  la  teoria. 

3.  Especificacion  del  modelo  econometrico  o  estadistico  de  la  teoria. 

4.  Obtencion  de  datos. 

5.  Estimacion  de  los  parametros  del  modelo  econometrico. 

6.  Pruebas  de  hipotesis. 

7.  Pronostico  o  prediccion. 

8.  Utilization  del  modelo  para  fines  de  control  o  de  politicas. 

Para  ilustrar  estos  pasos,  consideremos  la  conocida  teoria  keynesiana  de  consumo. 


1.  Planteamiento  de  la  teorfa  o  hipotesis 

Keynes  plantea: 

La  ley  psicologica  fundamental. . .  consiste  en  que  los  hombres  [y  las  mujeres],  como  regia  general  y 
en  promedio,  estan  dispuestos  a  incrementar  su  consumo  a  medida  que  aumenta  su  ingreso,  pero  no 
en  la  misma  cuantia  del  aumento  en  su  ingreso.10 

En  pocas  palabras,  Keynes  postula  que  la  propension  marginal  a  consumir  (PMC),  es  decir, 
la  tasa  de  cambio  del  consumo  generado  por  una  unidad  (digamos,  un  dolar)  de  cambio  en  el 
ingreso,  es  mayor  que  cero  pero  menor  que  uno. 

2.  Especificacion  del  modelo  matematico  de  consumo 

A  pesar  de  haber  postulado  una  relacion  positiva  entre  el  consumo  y  el  ingreso,  Keynes  no  espe- 
cifica  la  forma  precisa  de  la  relacion  funcional  entre  ambas  cosas.  Por  simplicidad,  un  economista 
matematico  puede  proponer  la  siguiente  forma  de  la  funcion  keynesiana  de  consumo: 

Y  =  px+p2X  Oc&cl  (1.3.1) 

donde  Y  =  gasto  de  consumo  y  X  =  ingreso,  y  donde  (J>\  y  fi2,  conocidos  como  los  parametros 
del  modelo,  son,  respectivamente,  los  coeficientes  del  intercepto  y  de  la  pendiente. 

El  coeficiente  de  la  pendiente  fi2  mide  la  PMC.  En  la  figura  1.1  se  presenta  geometricamente 
la  ecuacion  (1.3.1).  Esta  ecuacion  plantea  que  el  consumo  esta  relacionado  linealmente  con  el 
ingreso,  y  es  un  ejemplo  de  un  modelo  matematico  de  la  relacion  entre  consumo  e  ingreso,  11a- 
mada  en  economia  funcion  consumo.  Un  modelo  es  simplemente  un  conjunto  de  ecuaciones 
matematicas.  Si  el  modelo  tiene  una  sola  ecuacion,  como  en  el  ejemplo  anterior,  se  denomina 
modelo  uniecuacional,  mientras  que  si  tiene  mas  de  una  ecuacion,  se  conoce  como  modelo 
multiecuacional  (consideraremos  mas  adelante  este  tipo  de  modelos). 

En  la  ecuacion  (1.3.1),  la  variable  que  aparece  al  lado  izquierdo  del  signo  de  la  igualdad 
se  llama  variable  dependiente,  y  la(s)  variable(s)  del  lado  derecho  se  llama(n)  variable(s) 
independiente(s),  o  explicativa(s).  Asi,  en  la  funcion  keynesiana  de  consumo,  la  ecuacion 
(1.3.1),  el  consumo  (gasto)  es  la  variable  dependiente,  y  el  ingreso,  la  explicativa. 


10  John  Maynard  Keynes,  The  General  Theory  of  Employment,  Interest  and  Money,  Harcourt  Brace  Jovanovich, 
Nueva  York,  1936,  p.  96. 
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FIGURA  1.1 

Funcion  keynesiana  de 
consumo. 


Y 


3.  Especificacion  del  modelo  econometrico 
de  consumo 

El  modelo  puramente  matematico  de  la  funcion  de  consumo  dado  en  la  ecuacion  (1.3.1)  es  de 
interes  limitado  para  el  econometrista,  pues  supone  una  relacion  exacta  o  determinista  entre  el 
consumo  y  el  ingreso.  Pero  las  relaciones  entre  las  variables  economicas  suelen  ser  inexactas. 
Asl,  si  fueramos  a  obtener  informacion  sobre  gasto  de  consumo  e  ingreso  disponible  (es  decir, 
despues  de  impuestos)  de  una  muestra  de,  por  ejemplo,  500  familias  estadounidenses  y  graficar 
estos  datos,  con  el  gasto  de  consumo  en  el  eje  vertical  y  en  el  eje  horizontal  el  ingreso  disponi¬ 
ble,  no  esperarlamos  que  las  500  observaciones  quedaran  exactamente  sobre  la  linea  recta  de  la 
ecuacion  (1.3.1)  porque,  ademas  del  ingreso,  otras  variables  afectan  el  gasto  de  consumo,  como 
el  tamano  de  la  familia,  las  edades  de  sus  miembros,  su  religion,  etcetera. 

Para  dar  cabida  a  relaciones  inexactas  entre  las  variables  economicas,  el  econometrista  modi- 
ficaria  la  funcion  determinista  de  consumo  en  la  ecuacion  (1.3.1)  de  la  siguiente  manera: 

Y  =  +  p2X  +  u  (1.3.2) 


donde  u,  conocida  como  termino  de  perturbacion  o  de  error,  es  una  variable  aleatoria  (esto- 
castica)  con  propiedades  probabilisticas  bien  definidas.  El  termino  de  perturbacion  u  representa 
todos  los  factores  que  afectan  el  consumo  pero  que  no  se  consideran  en  el  modelo  en  forma 
explicita. 

La  ecuacion  (1.3.2)  es  un  ejemplo  de  un  modelo  econometrico.  Mas  tecnicamente,  dicha 
ecuacion  es  un  ejemplo  de  un  modelo  de  regresion  lineal,  el  principal  interes  de  este  libro.  La 
funcion  econometrica  de  consumo  plantea  como  hipotesis  que  la  variable  dependiente  Y  (con¬ 
sumo)  esta  relacionada  linealmente  con  la  variable  explicativa  X  (ingreso),  pero  que  la  relacion 
entre  las  dos  no  es  exacta:  esta  sujeta  a  variaciones  individuales. 

El  modelo  econometrico  de  la  funcion  de  consumo  se  representa  graficamente  como  aparece 
en  la  figura  1.2. 
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FIGURA  1.2 

Modelo  econometrico  de 
la  funcion  keynesiana 
de  consumo. 
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4.  Obtencion  de  informacion 

Para  estimar  el  modelo  econometrico  dado  en  la  ecuacion  (1.3.2),  esto  es,  para  obtener  los  valores 
numericos  de  fi\  y  /L,  son  necesarios  los  datos.  Aunque  tendremos  mas  que  decir  en  el  siguiente 
capitulo  sobre  la  importancia  crucial  de  los  datos  para  el  analisis  economico,  por  el  momento 
observemos  unas  cifras  relacionadas  con  la  economia  de  Estados  Unidos  de  1960  a  2005,  que 
se  presentan  en  la  tabla  1.1.  La  variable  Y  en  esta  tabla  es  el  gasto  de  consumo  personal  (GCP) 
agregado  (para  la  economia  en  su  conjunto),  y  la  variable  X,  el  producto  interno  bruto  (PIB), 
una  medida  del  ingreso  agregado,  ambos  medidos  en  miles  de  millones  de  dolares  de  2000.  Por 
consiguiente,  los  datos  estan  en  terminos  “reales”,  es  decir,  se  midieron  en  precios  constantes 
(2000).  Estos  datos  se  graficaron  en  la  figura  1.3  (cf.  figura  1.2).  Por  el  momento,  haga  caso  omiso 
de  la  recta  trazada  en  la  figura. 


5.  Estimacion  del  modelo  econometrico 

Ahora  que  tenemos  los  datos,  la  siguiente  labor  es  estimar  los  parametros  de  la  funcion  consumo. 
La  estimacion  numerica  de  los  parametros  da  contenido  empirico  a  la  funcion  consumo.  En  el 
capitulo  3  explicaremos  el  mecanismo  real  para  estimar  los  parametros.  Por  el  momento,  note 
que  la  tecnica  estadistica  conocida  como  analisis  de  regresion  es  la  herramienta  principal  para 
obtener  las  estimaciones.  Con  esta  tecnica  y  los  datos  de  la  tabla  1.1  obtuvimos  los  siguientes  va¬ 
lores  estimados  de  y  /L,  a  saber,  —299.5913  y  0.7218.  Asi,  la  funcion  consumo  estimada  es 

%  =  -299.5913  +  0.7218X,  (1.3.3) 


El  acento  circunflejo  (sombrero)  sobre  Y  indica  que  es  un  valor  estimado.11  En  la  figura  1.3  se 
muestra  la  funcion  consumo  estimada  (es  decir,  la  linea  de  regresion). 


11  Por  convencion,  un  acento  circunflejo  (sombrero)  sobre  una  variable  o  parametro  indica  que  es  un  valor 
estimado. 
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TABLA  1.1 

Datos  sobre  Y  (gasto  de 
consumo  personal)  y  X 
(producto  interno  bruto, 
1960-2005),  en  miles  de 
millones  de  dolares 
de  2000 

Fuente:  Economic  Report  of  the 
President ,  2007,  tabla  B-2,  p.  230. 


Ano 

GCP(V') 

PIB(X) 

1960 

1  597.4 

2  501.8 

1961 

1  630.3 

2  560.0 

1962 

1  711.1 

2  715.2 

1 963 

1  781.6 

2  834.0 

1964 

1  888.4 

2  998.6 

1965 

2  007.7 

3  191.1 

1966 

2  121.8 

3  399.1 

1967 

2  185.0 

3  484.6 

1968 

2  310.5 

3  652.7 

1969 

2  396.4 

3  765.4 

1970 

2  451.9 

3  771.9 

1971 

2  545.5 

3  898.6 

1972 

2  701.3 

4  105.0 

1973 

2  833.8 

4  341.5 

1974 

2812.3 

4  319.6 

1975 

2  876.9 

4  311.2 

1976 

3  035.5 

4  540.9 

1977 

3  164.1 

4  750.5 

1978 

3  303.1 

5  015.0 

1979 

3  383.4 

5  173.4 

1980 

3  374.1 

5  161.7 

1981 

3  422.2 

5  291.7 

1982 

3  470.3 

5  189.3 

1983 

3  668.6 

5  423.8 

1984 

3  863.3 

5  813.6 

1985 

4  064.0 

6  053.7 

1986 

4  228.9 

6  263.6 

1987 

4  369.8 

6  475.1 

1988 

4  546.9 

6  742.7 

1989 

4  675.0 

6  981.4 

1990 

4  770.3 

7  112.5 

1991 

4  778.4 

7  100.5 

1992 

4  934.8 

7  336.6 

1993 

5  099.8 

7  532.7 

1994 

5  290.7 

7  835.5 

1995 

5  433.5 

8  031.7 

1996 

5  619.4 

8  328.9 

1997 

5  831.8 

8  703.5 

1998 

6  125.8 

9  066.9 

1999 

6  438.6 

9  470.3 

2000 

6  739.4 

9  817.0 

2001 

6  910.4 

9  890.7 

2002 

7  099.3 

10  048.8 

2003 

7  295.3 

10  301.0 

2004 

7  577.1 

10  703.5 

2005 

7  841.2 

1 1  048.6 
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FIGURA  1.3 

Gasto  de  consumo  perso¬ 
nal  ( Y )  en  relacion  con  el 
PIB  (X),  1960-2005,  en 
miles  de  millones  de  dola- 
res  de  2000. 
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Como  se  aprecia  en  la  figura  1.3,  la  linea  de  regresion  se  ajusta  bien  a  los  datos,  pues  los  puntos 
que  corresponden  a  los  datos  estan  muy  cercanos  a  ella.  En  esta  grafica  vemos  que  de  1960  a 
2005  el  coeficiente  de  la  pendiente  (es  decir,  la  PMC)  fue  de  alrededor  de  0.72,  lo  que  indica  que 
para  el  periodo  muestral  un  incremento  de  un  dolar  en  el  ingreso  real  produjo,  en  promedio,  un 
incremento  cercano  a  72  centavos  en  el  gasto  de  consumo  real.12  Decimos  “en  promedio”  porque 
la  relacion  entre  consumo  e  ingreso  es  inexacta;  como  se  deduce  de  la  figura  1.3,  no  todos  los 
puntos  correspondientes  a  los  datos  estan  exactamente  en  la  recta  de  regresion.  Con  palabras  sen- 
cillas,  podemos  decir  que,  de  acuerdo  con  los  datos,  el  promedio  o  media  del  gasto  de  consumo 
aumento  alrededor  de  72  centavos  por  cada  dolar  de  incremento  en  el  ingreso  real. 


6.  Pruebas  de  hipotesis 

En  el  supuesto  de  que  el  modelo  ajustado  sea  una  aproximacion  razonablemente  buena  de  la 
realidad,  tenemos  que  establecer  criterios  apropiados  para  comprobar  si  los  valores  estimados 
obtenidos  en  una  ecuacion  como  la  (1.3.3),  por  ejemplo,  concuerdan  con  las  expectativas  de  la 
teoria  que  estamos  probando.  De  acuerdo  con  los  economistas  “positivos”,  como  Milton  Fried¬ 
man,  una  teoria  o  hipotesis  no  verificable  mediante  la  evidencia  empirica  no  puede  ser  admisible 
como  parte  de  la  investigacion  cientifica.13 

Como  ya  senalamos,  Keynes  esperaba  que  la  PMC  fuera  positiva  pero  menor  que  1.  En  el 
ejemplo  observamos  que  la  PMC  es  alrededor  de  0.72.  Pero  antes  de  aceptar  este  resultado  como 
confirmacion  de  la  teoria  keynesiana  de  consumo,  debemos  averiguar  si  esta  estimacion  esta  lo 


12  No  se  preocupe  aquf  por  la  forma  como  se  obtuvieron  estos  valores;  como  veremos  en  el  capftulo  3,  el 
metodo  estadlstico  de  rmnimos  cuadrados  produjo  estos  valores  estimados.  Asimismo,  por  el  momento 
no  se  preocupe  por  el  valor  negativo  del  intercepto. 

13 Vease  Milton  Friedman,  "The  Methodology  of  Positive  Economics",  Essays  in  Positive  Economics,  Univer¬ 
sity  of  Chicago  Press,  Chicago,  1 953. 


bastante  abajo  de  la  unidad  para  convencernos  de  que  no  se  trata  de  un  suceso  debido  al  azar  o 
de  una  peculiaridad  de  los  datos.  En  otras  palabras,  <^es  0.72  estadisticamente  menor  que  7?  Si  lo 
es,  puede  apoyar  la  teoria  de  Keynes. 

Tal  confirmation  o  refutation  de  las  teorias  economicas  con  fundamento  en  la  evidencia  mues- 
tral  se  basa  en  una  rama  de  la  teoria  estadistica  conocida  como  inferencia  estadistica  (pruebas 
de  hipotesis).  A  lo  largo  de  este  libro  veremos  como  realizar  en  la  practica  este  proceso  de  in¬ 
ferencia. 


7.  Pronostico  o  prediccion 

Si  el  modelo  escogido  no  refuta  la  hipotesis  o  la  teoria  en  consideracion,  servira  para  predecir 
el  (los)  valor(es)  futuro(s)  de  la  variable  dependiente  Y,  o  de  pronostico,  con  base  en  el  (los) 
valor(es)  futuro(s)  conocido(s)  o  esperado(s)  de  la  variable  explicativa,  o  predictora,  X. 

Para  ilustrarlo,  suponga  que  queremos  predecir  la  media  del  gasto  de  consumo  para  2006.  El 
valor  del  P1B  para  2006  fue  de  1 1  319.4  millones  de  dolares.14  Colocamos  esta  cifra  del  PIB  en 
el  lado  derecho  de  la  ecuacion  (1.3.3)  y  obtenemos: 


E2006  =  -299.5913  +  0.7218(11  319.4) 
=  7  870.7516 


(1.3.4) 


o  casi  7  870  millones  de  dolares.  Por  tanto,  con  ese  valor  del  PIB,  la  media  o  el  promedio  del 
gasto  de  consumo  previsto  es  de  alrededor  de  7  870  millones  de  dolares.  El  valor  real  del  gasto 
de  consumo  registrado  en  2006  fue  de  8  044  millones  de  dolares.  El  modelo  estimado  (1.3.3),  por 
tanto,  subpredijo  el  gasto  de  consumo  real  por  casi  174  000  millones  de  dolares.  Se  diria  que  el 
error  de  prediccion  es  de  aproximadamente  174  000  millones  de  dolares,  que  representa  alre¬ 
dedor  de  1.5%  del  valor  real  del  PIB  para  2006.  Cuando  analicemos  a  profundidad  el  modelo  de 
regresion  lineal  en  los  siguientes  capitulos,  trataremos  de  averiguar  si  un  error  de  esa  naturaleza 
es  “pequeno”  o  “grande”.  Pero  lo  que  ahora  importa  es  observar  que  tales  errores  de  prediccion 
son  inevitables,  dada  la  naturaleza  estadistica  del  analisis. 

Existe  otro  uso  del  modelo  estimado  (1.3.3).  Suponga  que  el  presidente  decide  proponer  una 
reduccion  del  impuesto  sobre  la  renta.  (',Cual  sera  el  efecto  de  dicha  politica  en  el  ingreso  y  por 
consiguiente  en  el  gasto  de  consumo,  y  a  final  de  cuentas  en  el  empleo? 

Suponga  que  como  resultado  de  estos  cambios  de  politica  se  incrementa  el  gasto  en  inversion. 
^Cual  sera  el  efecto  en  la  economia?  De  acuerdo  con  la  teoria  macroeconomica,  el  cambio  en  el 
ingreso  generado  por  un  cambio  equivalente  a  un  dolar,  por  ejemplo,  en  el  gasto  en  inversion  esta 
dado  por  el  multiplicador  del  ingreso  (A/),  el  cual  se  define  como 


M  = 


1 

1  -  PMC 


(1.3.5) 


Si  utilizamos  la  PMC  de  0.72  obtenida  en  la  ecuacion  (1.3.3),  este  multiplicador  se  convierte  en 
M—  3.57.  Es  decir,  un  aumento  (o  reduccion)  de  un  dolar  en  la  inversion  al  final  generara  un  in- 
cremento  (o  reduccion)  de  mas  de  tres  veces  en  el  ingreso;  advierta  que  el  multiplicador  demora 
algun  tiempo  en  actuar. 

El  valor  critico  en  este  calculo  es  la  PMC,  pues  M  depende  de  el.  Y  este  valor  estimado  de  la 
PMC  se  obtiene  de  modelos  de  regresion  como  el  de  la  ecuacion  (1.3.3).  Asi,  un  valor  estimado 
cuantitativo  de  la  PMC  proporciona  information  valiosa  para  fines  de  politicas  publicas.  Al  co- 
nocer  la  PMC,  se  puede  predecir  el  curso  futuro  del  ingreso,  el  gasto  de  consumo  y  el  empleo  que 
sigue  a  un  cambio  en  las  politicas  fiscales  del  gobierno. 


14  Habia  datos  disponibles  sobre  el  GCP  y  el  PIB  para  2006,  pero  los  omitimos  a  proposito  con  el  objeto  de 
ilustrar  el  tema  que  estudiamos  en  esta  seccion.  Como  veremos  en  los  capitulos  subsiguientes,  es  buena  idea 
guardar  parte  de  los  datos  con  el  objeto  de  averiguar  como  predicen  el  modelo  ajustado  las  observaciones 
ajenas  a  la  muestra. 
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8.  Uso  del  modelo  para  fines  de  control  o  de  polfticas 

Suponga  que  tenemos  la  funcion  keynesiana  de  consumo  estimada  dada  en  (1.3.3).  Suponga 
ademas  que  el  gobierno  considera  que  un  nivel  de  gasto  de  aproximadamente  8  750  (miles  de 
millones  de  dolares  de  2000)  mantendra  la  tasa  de  desempleo  en  su  nivel  actual  de  cerca  de  4.2 
por  ciento  (estimacion  para  principios  del  2006).  /.Que  nivel  de  ingreso  garantizara  la  cantidad 
de  gasto  de  consumo  fijado  como  meta? 

Si  los  resultados  de  la  regresion  dados  en  la  ecuacion  (1.3.3)  parecen  razonables,  la  aritmetica 
simple  mostrara  que 


8  750  =  -299.5913  +  0.7218(P/52oo6)  (1-3.6) 


que  da  X  =  12  537,  aproximadamente.  Es  decir,  un  nivel  de  ingresos  de  alrededor  de  12  537 
(miles  de  millones)  de  dolares,  con  una  PMC  de  cerca  de  0.72,  producira  un  gasto  aproximado 
de  8  750  millones  de  dolares. 

Como  indican  estos  calculos,  un  modelo  estimado  sirve  para  fines  de  control  o  de  politicas  pu- 
blicas.  Mediante  una  mezcla  apropiada  de  politica  fiscal  y  monetaria,  el  gobierno  puede  manejar 
la  variable  de  control  X  para  producir  el  nivel  deseado  de  la  variable  objetivo  Y. 

La  figura  1.4  resume  la  anatomia  de  la  creacion  de  los  modelos  econometricos  clasicos. 


Eleccion  entre  modelos  rivales 

Cuando  una  dependencia  gubernamental  (digamos,  el  Departamento  de  Comercio  de  Estados 
Unidos)  recopila  datos  economicos,  como  los  de  la  tabla  1.1,  no  necesariamente  tiene  una  teoria 
economica  en  mente.  Por  tanto,  /.como  sabe  en  realidad  que  los  datos  respaldan  la  teoria  keyne¬ 
siana  de  consumo?  /,Se  debe  acaso  a  que  la  funcion  consumo  keynesiana  (es  decir,  la  linea  de  re¬ 
gresion)  de  la  figura  1.3  se  aproxima  mucho  a  los  puntos  reales  que  representan  a  los  datos?  /.Sera 
posible  que  otro  modelo  (teoria)  de  consumo  se  ajuste  igual  de  bien  a  los  datos?  Por  ejemplo, 


FIGURA  1.4 

Anatomia  de  la  creacion 
de  modelos  econometri¬ 
cos. 
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Milton  Friedman  elaboro  un  modelo  de  consumo,  la  hipotesis  de  ingreso  permanente.15  Robert 
Hall  tambien  creo  un  modelo  de  consumo,  llamado  hipotesis  del  ciclo  de  vida  del  ingreso  perma¬ 
nente .16  ^Alguno  o  ambos  modelos  pueden  tambien  ajustarse  a  los  datos  de  la  tabla  1.1? 

En  resumen,  la  interrogante  con  que  se  enfrenta  en  la  practica  un  investigador  es:  ,',061110  elegir 
entre  modelos  o  hipotesis  que  compiten  entre  si,  dado  un  fenomeno  determinado,  como  la  rela- 
cion  entre  consumo  e  ingreso?  Como  observa  Miller: 

Ningun  encuentro  con  los  datos  significa  un  paso  adelante  hacia  la  confirmacion  genuina,  a  menos 
que  la  hipotesis  se  las  arregle  mejor  con  esos  datos  que  algun  rival  natural.  .  .  .  Lo  que  fortalece  aqul 
a  una  hipotesis  es  una  victoria  que,  al  mismo  tiempo,  es  una  derrota  para  una  posible  rival.17 

Entonces,  (;c6mo  elegir  entre  los  varios  modelos  o  hipotesis  en  disputa?  Aqui  Clive  Granger  da 
un  consejo  que  vale  la  pena:18 

Me  gustaria  proponer  que  en  el  future,  cuando  a  uno  se  le  presente  una  nueva  teoria  o  modelo  empi- 
rico,  se  plantee  las  siguientes  preguntas: 

i)  iQue  proposito  tiene?  iQue  tipo  de  decisiones  economicas  ayuda  a  tomar? 

ii )  /.Existe  alguna  evidencia  presente  que  me  permita  evaluar  su  calidad  en  comparacion  con  teorias 
o  modelos  alternos? 

Pienso  que  si  se  les  da  la  debida  atencion  a  estos  planteamientos  se  fortalecera  la  investigacion  y  el 
analisis  economicos. 

Conforme  avancemos  en  este  libro,  saldran  al  paso  diversas  hipotesis  que  compiten  entre  si  y 
que  tratan  de  explicar  varios  fenomenos  economicos.  Por  ejemplo,  los  estudiantes  de  economia 
conocen  ya  el  concepto  de  la  funcion  produccion,  que  representa  basicamente  una  relacion  entre 
la  produccion  y  los  insumos  (capital  y  trabajo).  En  la  bibliografia,  dos  funciones  produccion  muy 
conocidas  son  la  de  Cobb-Douglas  y  la  de  elasticidad  constante  de  siistitucion.  Con  los  datos  de 
produccion  e  insumos  tendremos  que  averiguar  cual  de  las  dos  funciones  produccion,  si  acaso 
alguna  lo  hace,  se  ajusta  bien  a  los  datos. 

La  metodologia  econometrica  clasica,  consistente  en  los  ocho  pasos  que  acabamos  de  presen- 
tar,  es  neutral  en  el  sentido  de  que  sirve  para  probar  cualquiera  de  estas  hipotesis  rivales. 

qEs  posible  elaborar  una  metodologia  lo  bastante  amplia  para  abarcar  hipotesis  contendientes? 
La  respuesta  implica  un  tema  polemico  e  intrincado  que  analizaremos  en  el  capitulo  13,  tras  en- 
tender  la  teoria  econometrica  necesaria. 


1.4  Tipos  de  econometria 


Como  deja  entrever  el  esquema  de  clasificacion  en  la  figura  1.5,  la  econometria  se  divide  en  dos 
amplias  categorias:  econometria  teorica  y  econometria  aplicada.  En  cada  categoria  se  puede 
tratar  la  materia  segun  la  tradicion  clasica  o  la  bayesiana.  En  este  libro  destacamos  el  enfoque 
clasico.  Para  el  enfoque  bayesiano,  el  lector  puede  consultar  las  referencias  al  final  del  capitulo. 


15  Milton  Friedman,  A  Theory  of  Consumption  Function,  Princeton  University  Press,  Princeton,  Nueva  Jersey, 
1957. 

16  R.  Hall,  "Stochastics  Implications  of  the  Life  Cycle  Permanent  Income  Hypothesis:  Theory  and  Evidence", 
lournal  of  Political  Economy,  1978,  vol.  86,  pp.  971-987. 

17  R.W.  Miller,  Fact  and  Method:  Explanation,  Confirmation,  and  Reality  in  the  Nature  and  Social  Sciences,  Prin¬ 
ceton  University  Press,  Princeton,  Nueva  Jersey,  1 978,  p.  1  76. 

18  Clive  W.J.  Granger,  Empirical  Modeling  in  Economics,  Cambridge  University  Press,  Gran  Bretana,  1999, 
p.  58. 
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FIGURA  1.5 

Categorias  de  la  econo¬ 
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La  econometria  teorica  se  relaciona  con  la  elaboracion  de  metodos  apropiados  para  medir  las 
relaciones  economicas  especificadas  por  los  modelos  econometricos.  En  este  aspecto,  la  eco¬ 
nometria  se  apoya  en  gran  medida  en  la  estadistica  matematica.  Por  ejemplo,  un  metodo  muy 
popular  en  este  libro  es  el  de  minimos  cuadrados.  La  econometria  teorica  debe  expresar  los 
supuestos  de  este  metodo,  sus  propiedades  y  lo  que  les  sucede  cuando  no  se  cumplen  uno  o  mas 
de  los  supuestos  del  metodo. 

En  la  econometria  aplicada  utilizamos  herramientas  de  la  econometria  teorica  para  estudiar 
algunos  campos  especiales  de  la  economia  y  los  negocios,  como  la  funcion  de  produccion,  la 
funcion  de  inversion,  las  funciones  de  demanda  y  de  oferta,  la  teoria  de  portafolio,  etcetera. 

Este  libro  se  refiere  en  gran  parte  al  desarrollo  de  los  metodos  econometricos,  sus  supuestos, 
usos  y  limitaciones.  Ilustramos  estos  metodos  con  ejemplos  en  diversas  areas  de  la  economia  y 
los  negocios.  Pero  este  no  es  un  libro  de  econometria  aplicada  en  el  sentido  de  que  investigue  a 
fondo  un  campo  particular  de  aplicacion  economica.  Para  esa  labor  existen  textos  especializados. 
Al  final  de  esta  obra  proporcionamos  referencias  de  algunos  de  ellos. 


1.5  Requisites  matematicos  y  estadisticos 


A  pesar  de  que  este  libro  esta  escrito  en  un  nivel  elemental,  el  autor  supone  que  el  lector  conoce 
los  conceptos  basicos  de  la  estimation  estadistica  y  las  pruebas  de  hipotesis.  Sin  embargo,  para 
quienes  deseen  refrescar  sus  conocimientos,  en  el  apendice  A  se  ofrece  una  revision  amplia  pero 
no  tecnica  de  los  conceptos  estadisticos  basicos  de  esta  obra.  Respecto  de  las  matematicas,  es 
deseable,  aunque  no  esencial,  estar  mas  o  menos  al  dia  con  las  nociones  de  calculo  diferencial. 
Si  bien  la  mayoria  de  los  textos  universitarios  de  econometria  emplea  con  libertad  el  algebra  ma- 
tricial,  deseo  aclarar  que  este  libro  no  la  requiere.  Sostengo  la  firme  conviction  de  que  las  ideas 
fundamentales  de  econometria  pueden  transmitirse  sin  algebra  matricial.  Sin  embargo,  para  el 
beneficio  del  estudiante  amigo  de  las  matematicas,  el  apendice  C  resume  la  teoria  de  regresion 
basica  en  notation  matricial.  Para  estos  estudiantes,  el  apendice  B  proporciona  un  resumen  su- 
cinto  de  los  principales  resultados  del  algebra  matricial. 


1.6  La  funcion  de  la  computadora 


El  analisis  de  regresion,  herramienta  de  uso  diario  de  la  econometria,  no  seria  posible  hoy  en 
dia  sin  la  computadora  y  el  software  estadistico.  (Creanme,  yo  creci  en  la  generation  de  la  regia 
de  calculo.)  Por  fortuna,  ya  existen  muchos  paquetes  de  regresion  excelentes,  tanto  para  las 
computadoras  centrales  ( mainframe )  como  para  las  microcomputadoras,  y  con  el  tiempo  la  lista 
crece.  Los  paquetes  de  software  de  regresion,  como  ET,  LIMDEP,  SHAZAM,  MICRO  TSP, 
MINITAB,  EVIEWS,  SAS,  SPSS,  BMD,  STATA,  Microfit  y  PcGive  tienen  la  mayoria  de  las 
tecnicas  econometricas  y  las  pruebas  analizadas  en  este  libro. 
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En  esta  obra  ocasionalmente  pediremos  al  lector  realizar  experimentos  Monte  Carlo  con  uno 
o  mas  paquetes  estadlsticos.  Los  experimentos  Monte  Carlo  son  ejercicios  “divertidos”  que  capa- 
citaran  al  lector  para  apreciar  las  propiedades  de  diversos  metodos  estadlsticos  analizados  en  este 
libro.  Detallaremos  sobre  los  experimentos  Monte  Carlo  en  las  secciones  pertinentes. 


1.7  Lecturas  sugeridas 


El  tema  de  la  metodologla  econometrica  es  vasto  y  controvertido.  Para  los  interesados  en  este 
tema,  sugiero  los  siguientes  libros: 

Neil  de  Marchi  y  Christopher  Gilbert,  eds..  History  and  Methodology  of  Econometrics ,  Oxford 
University  Press,  Nueva  York,  1989.  En  esta  coleccion  de  lecturas  se  analizan  los  primeros  traba- 
jos  sobre  metodologia  econometrica.  El  analisis  se  extiende  al  metodo  britanico  de  la  econome- 
tria  relacionado  con  cifras  de  series  de  tiempo,  es  decir,  datos  recopilados  a  traves  de  un  periodo 
determinado. 

Wojciech  W.  Charemza  y  Derek  F.  Deadman,  New  Directions  in  Econometric  Practice:  Gene¬ 
ral  to  Specific  Modelling,  Cointegration  and  Vector  Autoregression,  Edward  Elgar,  Hants,  Ingla- 
terra,  1997.  Los  autores  critican  el  metodo  tradicional  de  la  econometria  y  dan  una  exposition 
detallada  de  nuevos  enfoques  a  la  metodologia  econometrica. 

Adrian  C.  Darnell  y  J.  Lynne  Evans,  The  Limits  of  Econometrics,  Edward  Elgar,  Hants,  Ingla- 
terra,  1990.  Este  libro  presenta  un  analisis,  en  cierta  medida  equilibrado,  de  los  diversos  enfo¬ 
ques  metodologicos  a  la  econometria,  con  una  renovada  fidelidad  a  la  metodologia  econometrica 
tradicional. 

Mary  S.  Morgan,  The  History  of  Econometric  Ideas,  Cambridge  University  Press,  Nueva  York, 
1990.  La  autora  proporciona  una  perspectiva  historica  excelente  sobre  la  teoria  y  la  practica  de  la 
econometria,  con  un  analisis  a  fondo  de  las  primeras  contribuciones  de  Haavelmo  (Premio  Nobel 
de  Economla  1990)  a  la  econometria.  Con  el  mismo  espiritu,  David  F.  Hendry  y  Mary  S.  Morgan 
antologaron  escritos  seminales  para  la  econometria  en  The  Foundation  of  Econometric  Analisis, 
Cambridge  University  Press,  Gran  Bretana,  1995,  con  el  objeto  de  mostrar  la  evolucion  de  las 
ideas  econometricas  a  traves  del  tiempo. 

David  Colander  y  Reuven  Brenner,  eds..  Educating  Economists,  University  of  Michigan  Press, 
Ann  Arbor,  Michigan,  1992.  El  texto  presenta  un  punto  de  vista  critico,  en  ocasiones  agnostico, 
de  la  ensenanza  y  practica  de  la  economla. 

Para  consultar  sobre  los  temas  de  estadistica  y  econometria  bayesianas,  los  siguientes  libros 
pueden  ser  utiles:  John  H.  Dey,  Data  in  Doubt,  Basil  Blackwell,  Oxford,  University  Press,  Ingla- 
terra,  1985;  Peter  M.  Lee,  Bayesian  Statistics:  An  Introduction,  Oxford  University  Press,  Inglate- 
rra,  1989;  y  Dale  J.  Porier,  Intermediate  Statistics  and  Econometrics:  A  Comparative  Approach, 
MIT  Press,  Cambridge,  Massachusetts,  1995.  Una  referencia  avanzada  es  Arnold  Zellner,  An 
Introduction  to  Bayesian  Inference  in  Econometrics,  John  Wiley  &  Sons,  Nueva  York,  1971.  Otro 
libro  de  consulta  avanzada  es  Palgrave  Handbook  of  Econometrics.  Volumen  I.  Econometric 
Theory,  Terence  C.  Mills  y  Kerry  Patterson,  eds.,  Palgrave  Macmillan,  Nueva  York,  2007. 


Modelos  de  regresion 
uniecuacionales 


En  la  parte  1  de  este  texto  se  presentan  los  modelos  de  regresion  uniecuacionales.  En  estos  mo¬ 
delos  se  expresa  una  variable,  llamada  dependiente,  como  funcion  lineal  de  una  o  mas  variables, 
llamadas  explicativas.  En  modelos  de  este  tipo  se  supone  que  si  existen  relaciones  causales  entre 
las  variables  dependientes  y  las  explicativas,  estas  van  en  una  sola  direccion:  de  las  variables 
explicativas  a  la  variable  dependiente. 

En  el  capitulo  1  se  hace  una  exposicion  relacionada  con  la  interpretacion,  tanto  historica  como 
moderna,  del  termino  regresion  y  se  ilustran  las  diferencias  entre  las  dos  interpretaciones  con 
diversos  ejemplos  tornados  de  la  economia  y  de  otros  campos. 

En  el  capitulo  2  se  presentan  algunos  conceptos  fundamentales  del  analisis  de  regresion  con 
ayuda  del  modelo  de  regresion  lineal  con  dos  variables,  en  el  cual  la  variable  dependiente  se  ex¬ 
presa  como  funcion  lineal  de  una  sola  variable  explicativa. 

En  el  capitulo  3  continua  el  manejo  del  modelo  con  dos  variables  y  se  introduce  lo  que  se 
conoce  como  el  modelo  cldsico  de  regresion  lineal ,  que  tiene  diversos  supuestos  simplificado- 
res.  Con  estos  supuestos  se  presenta  el  metodo  de  mlnimos  cnadrados  ordinarios  (MCO)  para 
estimar  los  parametros  del  modelo  de  regresion  con  dos  variables.  La  aplicacion  del  metodo  de 
MCO  es  sencilla  y  tiene  algunas  propiedades  estadisticas  muy  convenientes. 

En  el  capitulo  4  se  introduce  el  modelo  clasico  de  regresion  lineal  normal  (de  dos  variables), 
modelo  que  supone  que  la  variable  aleatoria  dependiente  sigue  una  distribucion  de  probabilidad 
normal.  Con  este  supuesto  los  estimadores  MCO  obtenidos  en  el  capitulo  3  adquieren  algunas 
propiedades  estadisticas  mas  solidas  que  las  de  los  modelos  clasicos  de  regresion  lineal  no  nor- 
males.  Estas  propiedades  permiten  la  inferencia  estadistica  y,  en  particular,  las  pruebas  de  hipo- 
tesis. 

El  capitulo  5  se  dedica  a  las  pruebas  de  hipotesis,  y  se  pretende  averiguar  si  los  coeficientes 
de  regresion  estimados  son  compatibles  con  los  valores  hipoteticos  de  tales  coeficientes,  valo- 
res  hipoteticos  sugeridos  por  la  teoria  y/o  por  el  trabajo  empirico  previo. 

En  el  capitulo  6  se  consideran  algunas  extensiones  del  modelo  de  regresion  con  dos  variables. 
En  particular,  se  analizan  temas  como:  1)  regresion  a  traves  del  origen,  2)  escalas  y  unidades  de 
medicion,  y  3)  formas  funcionales  de  modelos  de  regresion,  como  doblelogaritmicos,  semiloga- 
ritmicos  y  reciprocos. 

En  el  capitulo  7  se  considera  el  modelo  de  regresion  multiple,  en  el  cual  hay  mas  de  una  va¬ 
riable  explicativa,  y  se  muestra  como  se  extiende  el  metodo  MCO  para  estimar  los  parametros 
de  tales  modelos. 
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En  el  capitulo  8  se  amplian  los  conceptos  del  capitulo  5  al  modelo  de  regresion  multiple  y  se 
senalan  algunas  complicaciones  propias  de  diversas  variables  explicativas. 

El  capitulo  9,  que  trata  sobre  variables  explicativas  dicotomas  o  cualitativas,  concluye  la  pri- 
mera  parte  del  texto.  Este  capitulo  destaca  que  no  todas  las  variables  explicativas  necesitan  ser 
cuantitativas  (por  ejemplo,  en  escala  de  razon).  Variables  como  genero,  raza,  religion,  nacionali- 
dad  y  lugar  de  residencia  no  son  cuantificables  de  manera  directa,  si  bien  desempenan  un  valioso 
papel  en  la  explicacion  de  muchos  fenomenos  economicos. 


Capitulo 


Naturaleza  del  analisis 
de  regresion 

Como  se  menciono  en  la  introduction,  la  regresion  es  una  herramienta  fundamental  de  la  econo- 
metria;  en  este  capitulo  se  considera  muy  brevemente  la  naturaleza  de  este  instrumento. 


1.1 


Origen  historic o  del  termino  regresion 


Francis  Galton  acuno  el  termino  regresion.  En  un  famoso  ensayo,  Galton  planted  que,  a  pesar  de 
la  tendencia  de  los  padres  de  estatura  alta  a  procrear  hijos  altos  y  los  padres  de  estatura  baja,  hijos 
bajos,  la  estatura  promedio  de  los  ninos  de  padres  de  una  estatura  determinada  tendia  a  despla- 
zarse,  o  “regresar”,  a  la  estatura  promedio  de  la  poblacion  total.1  En  otras  palabras,  la  estatura  de 
los  hijos  de  padres  inusualmente  altos  o  inusualmente  bajos  tiende  a  dirigirse  a  la  estatura  pro¬ 
medio  de  la  poblacion.  La  ley  de  regresion  universal  de  Galton  fue  confirmada  por  su  amigo 
Karl  Pearson,  quien  reunio  mas  de  mil  registros  de  estaturas  de  miembros  de  grupos  familiares.2 
Pearson  descubrio  que  la  estatura  promedio  de  los  hijos  de  un  grupo  de  padres  de  estatura  alta 
era  menor  que  la  estatura  de  sus  padres,  y  que  la  estatura  promedio  de  los  hijos  de  un  grupo  de 
padres  de  estatura  baja  era  mayor  que  la  estatura  de  sus  padres;  es  decir,  se  trata  de  un  fenomeno 
mediante  el  cual  los  hijos  altos  e  hijos  bajos  “regresan”  por  igual  a  la  estatura  promedio  de  todos 
los  demas.  En  palabras  de  Galton,  se  trata  de  una  “regresion  a  la  mediocridad”. 


1.2  Interpretacion  moderna  de  la  regresion 


La  interpretacion  moderna  de  la  regresion  es,  sin  embargo,  muy  diferente.  En  terminos  generales, 
se  afirma  que: 

El  analisis  de  regresion  trata  del  estudio  de  la  dependencia  de  una  variable  ( variable  dependiente ) 
respecto  de  una  o  mas  variables  ( variables  explicativas)  con  el  objetivo  de  estimar  o  predecir  la  media 
o  valor  promedio  poblacional  de  la  primera  en  terminos  de  los  valores  conocidos  o  fijos  (en  muestras 
repetidas)  de  las  segundas. 


1  Francis  Galton,  "Family  Likeness  in  Stature",  Proceedings  of  Royal  Society,  Londres,  voi.  40,  1886,  pp.  42-72. 

2K.  Pearson  y  A.  Lee,  "On  the  Laws  of  Inheritance",  Biometrika,  voi.  2,  noviembre  de  1903,  pp.  357-462. 
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La  importancia  trascendental  de  este  enfoque  del  analisis  de  regresion  se  vera  claramente  sobre 
la  marcha,  pero  algunos  ejemplos  sencillos  aclararan  este  concepto  basico. 


Ejemplos 

1 .  Considere  de  nuevo  la  ley  de  regresion  universal  de  Galton.  A  el  le  interesaba  averiguar  las 
razones  de  la  estabilidad  en  la  distribucion  de  estaturas  dentro  de  una  poblacion.  En  el  enfoque 
moderno,  la  preocupacion  no  es  esta  explication,  sino  averiguar  como  cambia  la  estatura  pro- 
medio  de  los  hijos  dada  la  estatura  de  los  padres.  En  otras  palabras,  lo  que  interesa  es  predecir 
la  estatura  promedio  de  los  hijos  a  partir  de  la  estatura  de  sus  padres.  Para  ver  como  hacerlo, 
considere  la  figura  1.1,  que  corresponde  a  un  diagrama  de  dispersion.  La  figura  muestra  la 
distribucion  de  las  estaturas  de  los  hijos  en  una  poblacion  hipotetica,  correspondiente  al  conjunto 
de  valores  dados  o  fijos  de  las  estaturas  de  los  padres.  Observe  que,  para  cualquier  estatura  de 
un  padre,  existe  un  rango  (distribucion)  de  estaturas  de  los  hijos.  Sin  embargo,  observe  tambien 
que,  a  pesar  de  la  variabilidad  de  la  estatura  de  los  hijos  conforme  al  valor  de  la  estatura  de  los 
padres,  la  estatura  promedio  de  los  hijos  aumenta,  por  lo  general,  en  la  medida  en  que  lo  hace  la 
estatura  de  los  padres.  Para  demostrar  esto  con  claridad,  las  cruces  dentro  de  los  circulos  en  la  fi¬ 
gura  indican  la  estatura  promedio  de  los  hijos  que  corresponde  a  una  estatura  determinada  de  los 
padres.  Estos  promedios  se  conectan  para  obtener  la  linea  recta  de  la  figura.  Esta  linea,  como 
veremos,  se  conoce  como  recta  de  regresion.  Dicha  recta  muestra  que  el  promedio  de  la  estatura 
de  los  hijos  aumenta  conforme  crece  la  de  los  padres.3 

2.  Considere  el  diagrama  de  dispersion  en  la  figura  1.2,  que  presenta  la  distribucion  de  una 
poblacion  hipotetica  de  estaturas  de  ninos  en  edades  fijas.  Observe  que  existe  un  rango  (distribu¬ 
cion)  de  estaturas  correspondiente  a  cada  edad.  Es  obvia  la  improbabilidad  de  que  todos  los  ninos 
de  una  edad  determinada  tengan  estaturas  identicas.  Pero,  en  promedio,  la  estatura  se  incrementa 
con  la  edad  (por  supuesto,  hasta  cierta  edad),  que  se  ve  con  claridad  al  trazar  una  recta  (la  recta  de 


FIGURA  1.1 

Distribucion  hipotetica  de 
las  estaturas  de  los  hijos 
correspondientes  a  las  es¬ 
taturas  de  los  padres. 


Estatura  del  padre,  en  pulgadas 


3  En  esta  etapa  de  estudio  del  tema,  denominaremos  a  esta  recta  de  regresion  simplemente  recta  que 
conecta  el  valor  de  la  media,  o  promedio,  de  la  variable  dependiente  (la  estatura  de  los  hijos)  que  corresponde  a 
un  valor  dado  de  la  variable  explicativa  (la  estatura  de  los  padres).  Observe  que  esta  recta  tiene  una  pendiente 
positiva;  pero  la  pendiente  es  menor  que  1,  lo  cual  esta  de  acuerdo  con  el  concepto  de  Galton  de  regresion 
a  la  mediocridad.  (^Por  que?) 
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FIGURA  1.2 

Distribucion  hipotetica  de 
estaturas  correspondientes 
a  edades  seleccionadas. 


regresion)  por  los  puntos  dentro  de  los  circulos,  los  cuales  representan  la  estatura  promedio  de 
determinadas  edades.  Por  consiguiente,  si  se  conoce  la  edad,  se  predice  la  estatura  promedio  de  di- 
cha  edad  mediante  la  recta  de  regresion. 

3.  A1  considerar  lo  referente  a  la  economia,  a  un  economista  quiza  le  interese  estudiar  la 
dependencia  del  consumo  personal  respecto  del  ingreso  personal  neto  disponible  (despues  de 
impuestos).  Con  un  analisis  de  este  tipo  se  calcula  la  propension  marginal  a  consumir  (PMC),  es 
decir,  el  cambio  promedio  del  consumo  ante  un  cambio,  digamos,  de  un  dolar  en  el  ingreso  real 
(ver  la  figura  1.3). 

4.  Un  monopolista  que  puede  fijar  el  precio  o  la  produccion  (pero  no  ambos  factores)  tal  vez 
desee  conocer  la  demanda  de  un  producto  con  diversos  precios.  Tal  experimento  permite  estimar 
la  elasticidad  del  precio  (es  decir,  la  respuesta  a  variaciones  del  precio)  de  la  demanda  del  pro¬ 
ducto  y  permite  determinar  el  precio  que  maximiza  las  ganancias. 

5.  Un  economista  laboral  quiza  desee  estudiar  la  tasa  de  cambio  de  los  salarios  monetarios  o 
nominales  en  relacion  con  la  tasa  de  desempleo.  Las  cifras  historicas  aparecen  en  el  diagrama  de 
dispersion  de  la  figura  1.3.  La  curva  de  esta  figura  es  un  ejemplo  de  la  celebre  curva  de  Phillips, 
que  relaciona  los  cambios  en  los  salarios  nominales  con  la  tasa  de  desempleo.  Un  diagrama  de 
dispersion  de  este  tipo  permite  al  economista  laboral  predecir  el  cambio  promedio  en  los  salarios 
nominales  con  una  cierta  tasa  de  desempleo.  Tal  conocimiento  sirve  para  establecer  supuestos  so- 
bre  el  proceso  inflacionario  en  una  economia,  pues  es  probable  que  los  incrementos  en  los  sala¬ 
rios  monetarios  se  reflejen  en  incrementos  de  precios. 

6.  En  la  economia  monetaria  se  sabe  que,  si  se  mantienen  constantes  otros  factores,  cuanto 
mayor  sea  la  tasa  de  inflacion  n,  menor  sera  la  proporcion  k  del  ingreso  que  la  gente  deseara  man- 
tener  en  forma  de  dinero,  como  se  deduce  de  la  figura  1 .4.  La  pendiente  de  esta  recta  representa 
el  cambio  en  k  con  un  cambio  en  la  tasa  de  inflacion.  Un  analisis  cuantitativo  de  esta  relacion 
permite  al  economista  predecir  la  cantidad  de  dinero,  como  proporcion  del  ingreso,  que  la  gente 
deseara  mantener  con  diversas  tasas  de  inflacion. 

7.  El  director  de  marketing  de  una  compania  tal  vez  quiera  conocer  la  relacion  entre  la  de¬ 
manda  del  producto  de  su  compania  con  el  gasto  de  publicidad,  por  ejemplo.  Un  estudio  de  este 
tipo  es  de  gran  ayuda  para  encontrar  la  elasticidad  de  la  demanda  respecto  de  los  gastos  publi- 
citarios,  es  decir,  el  cambio  porcentual  de  la  demanda  en  respuesta  a  un  cambio  de  1  por  ciento, 
por  ejemplo,  en  el  presupuesto  de  publicidad.  Saber  esto  sirve  para  determinar  el  presupuesto 
“optimo”  de  publicidad. 
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FIGURA  1.3 

Curva  hipotetica  de 
Phillips. 


FIGURA  1.4 

Tenencia  de  dinero  en 
relation  con  la  tasa  de 
inflation  n. 


,  Dinero 

k  = - 

Ingreso 


Tasa  de  inflation 


8.  Por  ultimo,  un  agronomo  tal  vez  se  interese  en  estudiar  la  relation  entre  el  rendimiento  de 
un  cultivo,  digamos  de  trigo,  y  la  temperatura,  lluvia,  cantidad  de  sol  y  fertilizantes.  Un  analisis 
de  dependencia  de  ese  tipo  facilitarla  la  prediction  o  el  pronostico  del  rendimiento  medio  del 
cultivo  segun  la  information  sobre  las  variables  explicativas. 

El  lector  puede  proporcionar  una  amplia  gama  de  ejemplos  similares  de  la  dependencia  de  una 
variable  respecto  de  otra  o  mas  variables.  Las  tecnicas  del  analisis  de  regresion  que  se  explican  en 
este  texto  estan  disenadas  especialmente  para  estudiar  dicha  dependencia  entre  variables. 
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1.3  Relaciones  estadisticas  y  relaciones  deterministas 


En  los  ejemplos  de  la  seccion  1.2  se  observa  que  en  el  analisis  de  regresion  interesa  lo  que  se 
conoce  como  dependencia  estadistica  entre  variables,  no  asi  la  funcional  o  determinista,  propia 
de  la  fisica  clasica.  En  las  relaciones  estadisticas  entre  variables  se  analizan,  en  esencia,  variables 
aleatorias  o  estocasticas,4  es  decir,  variables  con  distribuciones  de  probabilidad.  Por  otra  parte, 
en  la  dependencia  funcional  o  determinista  tambien  se  manejan  variables,  pero  no  son  aleatorias 
o  estocasticas. 

Por  ejemplo,  el  rendimiento  de  un  cultivo  depende  de  la  temperatura,  lluvia,  Sol  y  fertilizantes, 
y  dicha  dependencia  es  de  naturaleza  estadistica  porque  las  variables  explicativas,  si  bien  son  im- 
portantes,  no  permiten  al  agronomo  predecir  en  forma  exacta  el  rendimiento  del  cultivo  debido  a 
los  errores  propios  de  la  medicion  de  estas  variables  y  a  otra  serie  de  factores  (variables)  que  en 
conjunto  afectan  el  rendimiento  pero  son  dificiles  de  identificar  individualmente.  De  esta  manera, 
habra  alguna  variabilidad  “intrinseca”  o  aleatoria  en  la  variable  dependiente,  el  rendimiento  del 
cultivo,  que  no  puede  explicarse  en  su  totalidad  sin  importar  cuantas  variables  explicativas  se 
consideren. 

Los  fenomenos  deterministas,  por  otra  parte,  implican  relaciones  como  la  ley  de  la  gravedad 
de  Newton,  la  cual  establece  que  toda  particula  en  el  universo  atrae  a  cualquier  otra  particula 
con  una  fuerza  directamente  proporcional  al  producto  de  sus  masas  e  inversamente  proporcio- 
nal  al  cuadrado  de  la  distancia  entre  ellas.  En  terminos  matematicos,  F  —  k(m\m2/r2),  donde 
F  —  fuerza,  m\  y  m2  son  las  masas  de  las  dos  particulas,  r  —  distancia  y  k  —  constante  de  pro- 
porcionalidad.  Otro  ejemplo  es  el  de  la  ley  de  Ohm,  la  cual  postula  que  para  conductores  meta- 
licos  dentro  de  un  intervalo  limitado  de  temperatura,  la  corriente  C  es  proporcional  al  voltaje  V\ 
es  decir,  C  =  (\)V,  donde  |  es  la  constante  de  proporcionalidad.  Otros  ejemplos  de  relaciones 
deterministas  son  la  ley  de  los  gases  de  Boyle,  la  ley  de  la  electricidad  de  Kirchhoff  y  la  ley  del 
movimiento  de  Newton. 

En  este  texto  no  interesan  tales  relaciones  deterministas.  Por  supuesto,  de  haber  errores  de 
medicion,  por  ejemplo,  en  la  k  de  la  ley  de  la  gravedad  de  Newton,  la  relacion  que  de  otra  forma 
habria  sido  determinista  se  convierte  en  una  relacion  estadistica.  En  esta  situacion  es  posible 
predecir  la  fuerza  en  forma  aproximada  solo  a  partir  de  un  valor  dado  de  k  (y  m  \ ,  m2  y  r),  el  cual 
contiene  errores.  La  variable  F  se  convierte  en  este  caso  en  aleatoria. 


1.4  Regresion  y  causalidad 


A  pesar  de  que  el  analisis  de  regresion  tiene  que  ver  con  la  dependencia  de  una  variable  respecto 
de  otras  variables,  esto  no  implica  causalidad  necesariamente.  En  palabras  de  Kendall  y  Stuart: 
“Una  relacion  estadistica,  por  mas  fuerte  y  sugerente  que  sea,  nunca  podra  establecer  una  co- 
nexion  causal:  nuestras  ideas  de  causalidad  deben  provenir  de  estadisticas  externas  y,  en  ultimo 
termino,  de  una  u  otra  teoria”.5 


4  La  palabra  estocastico  viene  de  la  voz  griega  stokhos,  que  significa  "centra  del  bianco".  El  resultado  de  lan- 
zar  dardos  sobre  un  tablero  es  un  proceso  estocastico,  es  decir,  un  proceso  lleno  de  tiros  fallidos. 

5M.  G.  Kendall  y  A.  Stuart,  The  Advanced  Theory  of  Statistics,  Charles  Griffin  Publishers,  NuevaYork,  1961, 
vol.  2,  cap.  26,  p.  279. 
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En  el  ejemplo  del  rendimiento  del  cultivo  citado,  no  hay  una  razon  estadistica  para  suponer 
que  la  lluvia  no  depende  del  rendimiento  del  cultivo.  Considerar  que  el  rendimiento  del  cultivo 
depende  de  la  lluvia  (entre  otras  cosas)  se  debe  a  cuestiones  no  estadisticas:  el  sentido  comun 
indica  que  la  relacion  no  puede  ser  a  la  inversa,  pues  no  es  posible  controlar  la  lluvia  mediante  el 
rendimiento  del  cultivo. 

En  todos  los  ejemplos  de  la  seccion  1.2,  lo  que  se  debe  notar  es  que  una  relacion  estadistica 
por  si  misma  no  puede,  por  logica,  implicar  causalidad.  Para  aducir  causalidad  se  debe  acudir 
a  consideraciones  a  priori  o  teoricas.  Asi,  en  el  tercer  ejemplo,  es  posible  recurrir  a  la  teoria  eco¬ 
nomica  para  afirmar  que  el  consumo  depende  del  ingreso  real.6 


1.5  Regresion  y  correlacion 


El  analisis  de  correlacion  se  relaciona  de  manera  estrecha  con  el  de  regresion,  aunque  con- 
ceptualmente  los  dos  son  muy  diferentes.  En  el  analisis  de  correlacion,  el  objetivo  principal  es 
medir  la fiuerza  o  el  grado  de  asociacion  lineal  entre  dos  variables.  El  coeficiente  de  correlacion, 
que  veremos  en  detalle  en  el  capitulo  3,  mide  esta  fuerza  de  asociacion  (lineal):  por  ejemplo,  si 
se  desea  encontrar  la  correlacion  (coeficiente)  entre  el  habito  de  fumar  y  el  cancer  del  pulmon; 
entre  las  calificaciones  en  examenes  de  estadistica  y  en  examenes  de  matematicas;  entre  las 
calificaciones  de  bachillerato  y  de  la  universidad,  y  asi  sucesivamente.  En  el  analisis  de  regre¬ 
sion,  como  ya  mencionamos,  no  interesa  ese  tipo  de  medicion.  En  cambio,  se  trata  de  estimar  o 
predecir  el  valor  promedio  de  una  variable  con  base  en  los  valores  fijos  de  otras.  Asi,  quiza  se 
desee  predecir  el  promedio  de  las  calificaciones  en  un  examen  de  estadistica  a  partir  de  la  califi- 
cacion  de  un  estudiante  en  un  examen  de  matematicas. 

La  regresion  y  la  correlacion  presentan  diferencias  fundamentales  que  vale  la  pena  mencionar. 
En  el  analisis  de  regresion  hay  una  asimetria  en  el  tratamiento  a  las  variables  dependientes  y  ex- 
plicativas.  Se  supone  que  la  variable  dependiente  es  estadistica,  aleatoria  o  estocastica,  es  decir, 
que  tiene  una  distribucion  de  probabilidad.  Por  otra  parte,  se  asume  que  las  variables  explicativas 
tienen  valores  fijos  (en  muestras  repetidas),7  lo  cual  es  explicito  en  la  definicion  de  regresion  de 
la  seccion  1.2.  Asi,  en  la  figura  1.2  se  supuso  que  la  variable  de  edad  era  fija  en  los  niveles  dados 
y  se  obtuvieron  medidas  de  estatura  en  esos  niveles.  En  el  analisis  de  correlacion,  por  otra  parte, 
se  tratan  dos  variables  cualesquiera  en  forma  simetrica;  no  hay  distincion  entre  las  variables  de¬ 
pendiente  y  explicativa.  Despiies  de  todo,  la  correlacion  entre  las  calificaciones  de  los  examenes 
de  matematicas  y  de  estadistica  es  la  misma  que  la  existente  entre  calificaciones  de  examenes  de 
estadistica  y  de  matematicas.  Ademas,  las  dos  variables  se  consideran  aleatorias.  Como  veremos, 
la  mayor  parte  de  la  teoria  de  correlacion  parte  del  supuesto  de  aleatoriedad  de  las  variables, 
mientras  que  la  mayor  parte  de  la  teoria  de  regresion  que  expondremos  en  este  texto  esta  condi- 
cionada  al  supuesto  de  que  la  variable  dependiente  es  estocastica  y  que  las  variables  explicativas 
son  fijas  o  no  estocasticas.8 


6  Pero,  como  veremos  en  el  capitulo  3,  el  analisis  clasico  de  regresion  se  basa  en  el  supuesto  de  que  el  mo- 
delo  del  analisis  es  el  correcto.  Por  consiguiente,  la  direccion  de  la  causalidad  puede  estar  implfcita  en 

el  modelo  postulado. 

7  Es  de  crucial  importancia  notar  que  las  variables  explicativas  pueden  ser  intrfnsecamente  estocasticas,  pero, 
para  fines  del  analisis  de  regresion,  suponemos  que  sus  valores  son  fijos  en  el  muestreo  repetido  (es  decir, 
que  X  toma  los  mismos  valores  en  diversas  muestras),  de  modo  que,  en  efecto,  no  resultan  aleatorias  ni  es¬ 
tocasticas.  Hay  mas  sobre  este  tema  en  la  seccion  3.2  del  capitulo  3. 

8  En  el  tratamiento  avanzado  de  econometrfa  se  puede  ser  mas  flexible  con  el  supuesto  de  que  las  variables 
explicativas  son  no  estocasticas  (ver  la  introduccion  de  la  segunda  parte). 
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1.6  Terminologfa  y  notacion 


Antes  de  proceder  al  analisis  formal  de  la  teoria  de  regresion  abordaremos  brevemente  la  termi- 
nologia  y  la  notacion.  En  las  publicaciones  especializadas,  los  terminos  variable  dependiente  y 
variable  explicativa  se  definen  de  varias  maneras;  a  continuation  se  presenta  una  lista  represen- 
tativa: 


Variable  dependiente 

Variable  explicativa 

$ 

Variable  explicada 

Variable  independiente 

# 

Predicha 

Predictora 

Regresada 

Regresora 

Respuesta 

Estimulo 

# 

Endogena 

Exogena 

Resultado 

Covariante 

Variable  controlada 

Variable  de  control 

Aunque  es  cuestion  de  preferencia  personal  y  tradition,  en  este  texto  se  utiliza  la  terminologia  de 
variable  dependiente/variable  explicativa,  o  la  mas  neutral  de  regresada  y  regresora. 

Si  se  estudia  la  dependencia  de  una  variable  respecto  de  una  unica  variable  explicativa,  como 
el  consumo  que  depende  del  ingreso  real,  dicho  estudio  se  conoce  como  analisis  de  regresion 
simple,  o  con  dos  variables.  Sin  embargo,  si  se  estudia  la  dependencia  de  una  variable  respecto 
de  mas  de  una  variable  explicativa,  como  el  rendimiento  de  un  cultivo,  la  lluvia,  la  temperatura, 
el  Sol  y  los  fertilizantes,  se  trata  de  un  analisis  de  regresion  multiple.  En  otras  palabras,  en  una 
regresion  de  dos  variables  solo  hay  una  variable  explicativa,  mientras  que  en  la  regresion  multiple 
hay  mas  de  una  variable  explicativa. 

El  termino  aleatorio  es  sinonimo  de  estocastico.  Como  ya  vimos,  una  variable  aleatoria  o 
estocastica  es  la  que  toma  cualquier  conjunto  de  valores,  positivos  o  negativos,  con  una  proba- 
bilidad  dada.9 

A  menos  que  se  indique  lo  contrario,  la  letra  Y  representa  la  variable  dependiente,  y  las  X  (X\, 
X2 ,...,Xk),  las  variables  explicativas,  con Xk como  la  £-esima  variable  explicativa.  Los  subindices 
i  o  t  denotan  la  observacion  o  valor  r-esimo  o  t-esimo.  X^  (o  X^)  denota  la  r-esima  (o  la  t-esima) 
observacion  de  la  variable  A/..  N(o  T )  representa  el  numero  total  de  observaciones  o  valores  en  la 
poblacion,  y  n  (o  t),  el  numero  total  de  observaciones  en  una  muestra.  Por  convention,  se  utiliza 
el  subindice  de  observacion  i  para  los  datos  transversales  (es  decir,  information  recopilada  en 
un  momento  determinado),  y  el  subindice  t,  para  datos  de  series  de  tiempo  (es  decir,  informa¬ 
cion  reunida  a  lo  largo  de  un  periodo).  La  naturaleza  de  datos  transversales  y  de  series  de  tiempo, 
asi  como  el  importante  tema  de  la  naturaleza  y  las  fuentes  de  datos  para  el  analisis  empirico,  se 
estudian  en  la  siguiente  seccion. 


9  Hay  una  definition  formal  y  mas  detalles  en  el  apendice  A. 
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1.7  Naturaleza  y  fuentes  de  datos  para  el  analisis  economico10 


El  exito  de  todo  analisis  econometrico  depende  a  final  de  cuentas  de  la  disponibilidad  de  los  datos 
recopilados.  Por  consiguiente,  es  muy  importante  dedicar  algun  tiempo  a  estudiar  la  naturaleza, 
las  fuentes  y  las  limitaciones  de  los  datos  para  el  analisis  empirico. 


Tipos  de  datos 

Hay  tres  tipos  de  datos  disponibles  para  el  analisis  empirico:  series  de  tiempo,  series  transver- 
sales  e  informacion  combinada  (combinacion  de  series  de  tiempo  y  transversales). 

Datos  de  series  de  tiempo 

Los  datos  de  la  tabla  1.1  son  un  ejemplo  de  datos  de  series  de  tiempo.  Una  serie  de  tiempo  es  un 
conjunto  de  observaciones  sobre  los  valores  de  una  variable  en  diferentes  momentos.  Tal  infor¬ 
macion  debe  recopilarse  en  intervalos  regulares,  es  decir,  en  forma  diaria  (precios  de  acciones, 
informes  del  tiempo,  etc.),  semanal  (como  cifras  de  oferta  monetaria),  mensual  (tasa  de  des- 
empleo,  lndice  de  Precios  al  Consumidor  [IPC],  etc.),  trimestral  (como  el  P1B),  anual  (como 
los  presupuestos  del  gobierno),  quinquenal  (como  el  censo  de  la  industria  manufacturera),  o 
decenal  (como  los  censos  de  poblacion).  Algunas  veces  los  datos  estan  disponibles  por  trimestre 
y  por  ano,  como  los  datos  del  PIB  y  del  consumo.  Con  las  computadoras  de  alta  velocidad,  ahora 
se  recopilan  datos  en  intervalos  muy  breves,  por  ejemplo,  precios  de  acciones,  que  se  obtienen 
literalmente  de  manera  continua  (o  cotizacion  en  tiempo  real). 

Si  bien  los  datos  de  series  de  tiempo  se  utilizan  mucho  en  estudios  econometricos,  presentan 
algunos  problemas  especiales  para  los  econometristas.  Como  veremos  en  los  capitulos  sobre 
econometria  de  series  de  tiempo,  la  mayor  parte  del  trabajo  empirico  con  datos  de  series  de 
tiempo  supone  que  estas  son  estacionarias.  Aunque  es  muy  pronto  para  introducir  el  significado 
tecnico  preciso  de  estacionariedad,  en  terminos  generates,  una  serie  de  tiempo  es  estacionaria  si 
su  media  y  varianza  no  varian  sistemdticamente  con  el  tiempo.  Para  entender  esto,  observe,  en  la 
figura  1.5,  el  comportamiento  de  la  oferta  de  dinero  Ml  en  Estados  Unidos  durante  el  periodo  del 
primero  de  enero  de  1959  a  septiembre  de  1999.  (Los  datos  reales  se  proporcionan  en  el  ejercicio 
1.4.)  Como  se  observa,  la  oferta  de  dinero  Ml  presenta  una  tendencia  ascendente  constante,  asi 
como  variabilidad  con  el  transcurso  de  los  anos,  lo  cual  indica  que  la  serie  de  tiempo  Ml  no  es 
estacionaria.11  En  el  capitulo  21  se  analiza  a  fondo  este  tema. 

Datos  transversales 

Los  datos  transversales  consisten  en  datos  de  una  o  mas  variables  recopilados  en  el  mismo  punto 
del  tiempo,  como  el  censo  de  poblacion  realizado  por  la  Oficina  del  Censo  de  Estados  Unidos 
cada  10  anos  (el  ultimo  fue  en  2000),  las  encuestas  de  gastos  del  consumidor  levantadas  por  la 
Universidad  de  Michigan  y,  sin  duda,  las  encuestas  de  opinion  de  Gallup  y  diversas  empresas 
especializadas.  Un  ejemplo  concreto  de  datos  transversales  se  presenta  en  la  tabla  1.1,  con  datos 
sobre  la  produccion  y  precios  del  huevo  en  Estados  Unidos  para  los  50  estados  durante  1990  y 


10  En  Michael  D.  Intriligator,  Econometric  Models,  Techniques,  and  Applications,  Prentice  Hall,  Englewood  Cliffs, 
Nueva  Jersey,  1978,  cap.  3,  hay  una  explicacion  ilustrativa. 

11  Para  que  resulte  mas  claro,  los  datos  se  dividen  en  cuatro  periodos:  enero  de  1951  a  diciembre  de  1962; 
enero  de  1 963  a  diciembre  de  1 974;  enero  de  1 975  a  diciembre  de  1 986;  y  enero  de  1 987  a  septiembre  de 
1 999.  En  estos  subperiodos,  los  valores  de  la  media  para  la  oferta  de  dinero  (con  sus  correspondientes 
desviaciones  estandar,  entre  parentesis)  fueron,  respectivamente:  165.88  (23.27),  323.20  (72.66),  788.12 

(1 95.43)  y  1  099  (27.84);  todas  las  cifras  representan  miles  de  millones  de  dolares.  Esta  es  una  indicacion 
aproximada  de  que  la  oferta  de  dinero  no  fue  estacionaria  a  lo  largo  de  todo  el  periodo. 
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FIGURA  1.5 

Oferta  de  dinero  Ml: 
Estados  Unidos,  enero  de 
1951-septiembre  de  1999. 


1991.  Para  cada  ano,  los  datos  sobre  los  50  estados  son  transversales.  Asi,  en  la  tabla  1 . 1  aparecen 
dos  muestras  de  corte  transversal. 

As!  como  los  datos  de  series  de  tiempo  crean  problemas  especiales  (por  la  estacionariedad), 
los  datos  transversales  tambien  tienen  sus  propios  problemas,  en  concreto,  el  de  la  heteroge- 
neidad.  En  los  datos  de  la  tabla  1 . 1  se  observa  que  hay  algunos  estados  que  producen  grandes 
cantidades  de  huevo  (como  Pensilvania)  y  otros  que  producen  muy  poco  (por  ejemplo,  Alaska). 
Cuando  se  incluyen  unidades  heterogeneas  en  un  analisis  estadistico,  debe  tenerse  presente  el 
efecto  de  tamano  o  de  escala  con  el  fin  de  no  mezclar  manzanas  con  naranjas.  Para  ver  esto  con 
claridad,  en  la  figura  1.6  se  representan  graficamente  los  datos  sobre  la  produccion  y  los  precios 
del  huevo  en  los  50  estados  de  Estados  Unidos  en  1990.  Esta  figura  muestra  la  amplia  disper¬ 
sion  de  las  observaciones.  En  el  capitulo  1 1  veremos  que  el  efecto  de  escala  puede  ser  importante 
al  evaluar  las  relaciones  entre  variables  economicas. 

Datos  combinados 

Los  datos  combinados  reunen  elementos  de  series  de  tiempo  y  transversales.  Los  datos  de  la  tabla 
1.1  son  datos  combinados.  Hay  50  observaciones  transversales  por  ano,  y  dos  observaciones  de 
series  de  tiempo  sobre  precios  y  produccion  de  huevo  por  estado:  un  total  de  100  observaciones 
combinadas.  De  igual  forma,  los  datos  del  ejercicio  1.1  son  combinados,  pues  el  indice  de  precios 
al  consumidor  de  cada  pais  de  1980  a  2005  representa  datos  de  series  de  tiempo,  en  tanto  que 
los  datos  del  IPC  de  los  siete  paises  correspondientes  a  un  solo  ano  son  transversales.  Los  datos 
combinados  consisten  en  182  observaciones:  26  observaciones  anuales  para  cada  uno  de  los  siete 
paises. 

Datos  en  panel,  longitudinales  o  en  micropanel 

Hay  un  tipo  especial  de  datos  combinados  en  el  cual  se  estudia  a  traves  del  tiempo  la  misma 
unidad  transversal  (por  ejemplo,  una  familia  o  una  empresa).  Por  ejemplo,  el  Departamento  de 
Comercio  de  Estados  Unidos  realiza  un  censo  de  vivienda  en  intervalos  periodicos.  En  cada 
encuesta  periodica  se  entrevista  a  la  misma  unidad  familiar  (o  a  la  gente  que  vive  en  la  misma  di- 
reccion)  para  averiguar  si  ha  habido  algun  cambio  en  las  condiciones  de  vivienda  o  financieras  de 
esa  unidad  familiar  desde  la  ultima  encuesta.  Los  datos  en  panel  que  se  obtienen  de  las  entrevistas 
periodicas  de  la  misma  unidad  familiar  proporcionan  informacion  muy  util  sobre  la  dinamica  del 
comportamiento  de  las  unidades  familiares,  como  veremos  en  el  capitulo  16. 
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FIGURA  1.6 

Relation  entre  la  pro¬ 
duction  y  los  precios  del 
huevo,  1990. 
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TABLA  1.1  Production  de  huevo  en  Estados  Unidos 


Estado 

Y^ 

y2 

*2 

Estado 

Yi 

y2 

Xi 

*2 

AL 

2  206 

2  186 

92.7 

91.4 

MT 

172 

164 

68.0 

66.0 

AK 

0.7 

0.7 

151.0 

149.0 

NE 

1  202 

1  400 

50.3 

48.9 

AZ 

73 

74 

61.0 

56.0 

NV 

2.2 

1.8 

53.9 

52.7 

AR 

3  620 

3  737 

86.3 

91.8 

NH 

43 

49 

109.0 

104.0 

CA 

7  472 

7  444 

63.4 

58.4 

NJ 

442 

491 

85.0 

83.0 

CO 

788 

873 

77.8 

73.0 

NM 

283 

302 

74.0 

70.0 

CT 

1  029 

948 

106.0 

104.0 

NY 

975 

987 

68.1 

64.0 

DE 

168 

164 

117.0 

113.0 

NC 

3  033 

3  045 

82.8 

78.7 

FL 

2  586 

2  537 

62.0 

57.2 

ND 

51 

45 

55.2 

48.0 

GA 

4  302 

4  301 

80.6 

80.8 

OH 

4  667 

4  637 

59.1 

54.7 

HI 

227.5 

224.5 

85.0 

85.5 

OK 

869 

830 

101.0 

100.0 

ID 

187 

203 

79.1 

72.9 

OR 

652 

686 

77.0 

74.6 

IL 

793 

809 

65.0 

70.5 

PA 

4  976 

5  130 

61.0 

52.0 

IN 

5  445 

5  290 

62.7 

60.1 

Rl 

53 

50 

102.0 

99.0 

IA 

2  151 

2  247 

56.5 

53.0 

SC 

1  422 

1  420 

70.1 

65.9 

KS 

404 

389 

54.5 

47.8 

SD 

435 

602 

48.0 

45.8 

KY 

412 

483 

67.7 

73.5 

TN 

277 

279 

71.0 

80.7 

LA 

273 

254 

115.0 

115.0 

TX 

3  317 

3  356 

76.7 

72.6 

ME 

1  069 

1  070 

101.0 

97.0 

UT 

456 

486 

64.0 

59.0 

MD 

885 

898 

76.6 

75.4 

VT 

31 

30 

106.0 

102.0 

MA 

235 

237 

105.0 

102.0 

VA 

943 

988 

86.3 

81.2 

Ml 

1  406 

1  396 

58.0 

53.8 

WA 

1  287 

1  313 

74.1 

71.5 

MN 

2  499 

2  697 

57.7 

54.0 

WV 

136 

174 

104.0 

109.0 

MS 

1  434 

1  468 

87.8 

86.7 

Wl 

910 

873 

60.1 

54.0 

MO 

1  580 

1  622 

55.4 

51.5 

WY 

1.7 

1.7 

83.0 

83.0 

Notas:  Y\  =  huevos  producidos  en  1990  (millones). 

Y2  =  huevos  producidos  en  1991  (millones). 

X\  =  precio  por  docena  (centavos  de  dolar)  en  1990. 

X2  =  precio  por  docena  (centavos  de  dolar)  en  1991. 

Fuente:  World  Almanac,  1993,  p.  119.  Los  datos  provienen  del  Economic  Research  Service,  U.S.  Department  of  Agriculture. 
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Como  ejemplo  concreto  considere  los  datos  proporcionados  en  la  tabla  1.2.  Los  datos  de  la 
tabla,  recopilados  originalmente  por  Y.  Grunfeld,  se  refieren  a  la  inversion  real,  al  valor  real  de 
la  empresa  y  al  capital  accionario  real  de  cuatro  empresas  estadounidenses,  a  saber,  General  Elec¬ 
tric  (GM),  U.S.  Steel  (US),  General  Motors  (GM)  y  Westinghouse  (WEST),  de  1935  a  1954. 12 
En  virtud  de  que  los  datos  corresponden  a  varias  empresas  y  se  recopilaron  a  lo  largo  de  varios 
anos,  se  trata  de  un  ejemplo  clasico  de  datos  en  panel.  En  esta  tabla,  el  niimero  de  observaciones 
de  cada  empresa  es  el  mismo,  pero  no  siempre  ocurre  asi.  Si  todas  las  empresas  tienen  el  mismo 
numero  de  observaciones,  se  tiene  lo  que  se  conoce  como  panel  balanceado.  Si  el  numero  de 
observaciones  no  es  igual  para  cada  compania,  se  llama  panel  desbalanceado.  En  el  capitulo 
16,  Modelos  de  regresion  con  datos  en  panel,  examinaremos  estos  datos  y  como  estimar  estos 
modelos. 

El  proposito  de  Grunfeld  cuando  recopilo  estos  datos  fue  investigar  como  depende  la  inver¬ 
sion  bruta  real  (I)  del  valor  real  de  la  empresa  ( F )  un  ano  antes  y  del  capital  accionario  real  (C)  un 
ano  antes.  Como  las  companias  de  esta  muestra  operan  en  el  mismo  mercado  de  capital,  Grunfeld 
las  estudio  en  conjunto  para  averiguar  si  tenian  funciones  de  inversion  parecidas. 


Fuentes  de  datos13 

Los  datos  para  el  analisis  empirico  pueden  provenir  de  una  dependencia  gubernamental  (por 
ejemplo,  el  Departamento  de  Comercio),  un  organismo  internacional  (el  Fondo  Monetario  Inter- 
nacional  [FMI]  o  el  Banco  Mundial),  una  organization  privada  (por  ejemplo.  Standard  &  Poor’s) 
o  un  particular.  Hay  miles  de  agendas  de  este  tipo  que  recopilan  datos  para  uno  u  otro  fin. 

Internet 

Internet  revoluciono  la  labor  de  recopilacion  de  datos.  Si  uno  “navega”  por  la  red  en  los  motores 
de  busqueda  con  solo  una  palabra  o  frase  (por  ejemplo,  tipos  de  cambio),  se  vera  inundado  con 
todo  tipo  de  fuentes  de  datos.  En  el  apendice  E  se  mencionan  algunos  sitios  Web  que  suminis- 
tran  todo  tipo  de  information  financiera  y  economica,  y  que  se  visitan  con  mayor  frecuencia.  La 
mayoria  de  los  datos  se  descarga  con  un  costo  minimo.  Conviene  incluir  en  la  lista  de  Favoritos, 
los  sitios  Web  que  brinden  datos  economicos  utiles. 

Los  datos  recopilados  por  estas  organizaciones  pueden  ser  de  naturaleza  experimental  o  no 
experimental.  En  los  datos  experimentales,  frecuentes  en  las  ciencias  naturales,  el  investigador 
suele  recabar  los  datos  con  algunos  factores  constantes,  con  el  fin  de  evaluar  el  efecto  de  otros 
en  un  fenomeno  dado.  Por  ejemplo,  al  estimar  el  efecto  de  la  obesidad  en  la  presion  arterial,  el 
investigador  recopilaria  los  datos  y  mantendria  constantes  los  habitos  de  las  personas  respecto  de 
comer,  fumar  y  beber  para  reducir  la  influencia  de  estas  variables  en  la  presion  arterial. 

En  las  ciencias  sociales,  los  datos  por  lo  general  son  de  naturaleza  no  experimental,  es  decir, 
no  estan  sujetos  al  control  del  investigador.14  Por  ejemplo,  el  investigador  no  ejerce  ningun  con¬ 
trol  directo  sobre  los  datos  del  PIB,  desempleo,  precios  de  acciones,  etc.  Como  veremos,  esta 
falta  de  control  a  menudo  genera  problemas  especiales  para  el  investigador  al  identificar  la  causa 
o  causas  precisas  que  afectan  una  situation  particular.  Por  ejemplo,  (',es  la  oferta  monetaria  la  que 
determina  el  PIB  (nominal)  o  la  relation  es  inversa? 


12  Y.  Grunfeld,  "The  Determinants  of  Corporate  Investment",  tesis  doctoral  inedita,  Departamento  de  Econo- 
m(a,  Universidad  de  Chicago,  1958.  Estos  datos  son  ya  una  herramienta  excelente  para  ilustrar  los  modelos 
de  regresion  con  datos  en  panel. 

13  Para  mayor  claridad,  ver  Albert  T.  Somers,  The  U.S.  Economy  Demystified:  What  the  Major  Economic  Statis¬ 
tics  Mean  and  Their  Significance  for  Business,  D.C.  Heath,  Lexington,  Massachusetts,  1 985. 

,4Tambien  en  las  ciencias  sociales,  con  mucha  frecuencia,  hay  experimentos  controlados;  se  da  un  ejemplo 
en  el  ejercicio  1 .6. 
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TAB  LA  1 .2  Datos  de  inversion  de  cuatro  empresas,  1935-1954 


Observacion 

/ 

F- 1 

C-i 

Observacion 

/ 

F- 1 

C-i 

GE 

US 

1935 

33.1 

1  170.6 

97.8 

1935 

209.9 

1  362.4 

53.8 

1936 

45.0 

2  015.8 

104.4 

1936 

355.3 

1  807.1 

50.5 

1937 

77.2 

2  803.3 

118.0 

1937 

469.9 

2  673.3 

118.1 

1938 

44.6 

2  039.7 

156.2 

1938 

262.3 

1  801.9 

260.2 

1939 

48.1 

2  256.2 

172.6 

1939 

230.4 

1  957.3 

312.7 

1940 

74.4 

2  132.2 

186.6 

1940 

361.6 

2  202.9 

254.2 

1941 

113.0 

1  834.1 

220.9 

1941 

472.8 

2  380.5 

261.4 

1942 

91.9 

1  588.0 

287.8 

1942 

445.6 

2  168.6 

298.7 

1943 

61.3 

1  749.4 

319.9 

1943 

361.6 

1  985.1 

301.8 

1944 

56.8 

1  687.2 

321.3 

1944 

288.2 

1  813.9 

279.1 

1945 

93.6 

2  007.7 

319.6 

1945 

258.7 

1  850.2 

213.8 

1946 

159.9 

2  208.3 

346.0 

1946 

420.3 

2  067.7 

232.6 

1947 

147.2 

1  656.7 

456.4 

1947 

420.5 

1  796.7 

264.8 

1948 

146.3 

1  604.4 

543.4 

1948 

494.5 

1  625.8 

306.9 

1949 

98.3 

1  431.8 

618.3 

1949 

405.1 

1  667.0 

351.1 

1950 

93.5 

1  610.5 

647.4 

1950 

418.8 

1  677.4 

357.8 

1951 

135.2 

1  819.4 

671.3 

1951 

588.2 

2  289.5 

341.1 

1952 

157.3 

2  079.7 

726.1 

1952 

645.2 

2  159.4 

444.2 

1953 

179.5 

2  371.6 

800.3 

1953 

641.0 

2  031.3 

623.6 

1954 

189.6 

2  759.9 

888.9 

1954 

459.3 

2  115.5 

669.7 

GM 

WEST 

1935 

317.6 

3  078.5 

2.8 

1935 

12.93 

191.5 

1.8 

1936 

391.8 

4  661.7 

52.6 

1936 

25.90 

516.0 

0.8 

1937 

410.6 

5  387.1 

156.9 

1937 

35.05 

729.0 

7.4 

1938 

257.7 

2  792.2 

209.2 

1938 

22.89 

560.4 

18.1 

1939 

330.8 

4  313.2 

203.4 

1939 

18.84 

519.9 

23.5 

1940 

461.2 

4  643.9 

207.2 

1940 

28.57 

628.5 

26.5 

1941 

512.0 

4  551.2 

255.2 

1941 

48.51 

537.1 

36.2 

1942 

448.0 

3  244.1 

303.7 

1942 

43.34 

561.2 

60.8 

1943 

499.6 

4  053.7 

264.1 

1943 

37.02 

617.2 

84.4 

1944 

547.5 

4  379.3 

201.6 

1944 

37.81 

626.7 

91.2 

1945 

561.2 

4  840.9 

265.0 

1945 

39.27 

737.2 

92.4 

1946 

688.1 

4  900.0 

402.2 

1946 

53.46 

760.5 

86.0 

1947 

568.9 

3  526.5 

761.5 

1947 

55.56 

581.4 

111.1 

1948 

529.2 

3  245.7 

922.4 

1948 

49.56 

662.3 

130.6 

1949 

555.1 

3  700.2 

1  020.1 

1949 

32.04 

583.8 

141.8 

1950 

642.9 

3  755.6 

1  099.0 

1950 

32.24 

635.2 

136.7 

1951 

755.9 

4  833.0 

1  207.7 

1951 

54.38 

732.8 

129.7 

1952 

891.2 

4  924.9 

1  430.5 

1952 

71.78 

864.1 

145.5 

1953 

1  304.4 

6  241.7 

1  777.3 

1953 

90.08 

1  193.5 

174.8 

1954 

1  486.7 

5  593.6 

2  226.3 

1954 

68.60 

1  188.9 

213.5 

Notas:  Y=  I  =  inversion  bruta  =  adiciones  a  planta  y  equipo  mas  mantenimiento  y  reparaciones,  en  millones  de  dolares  deflacionados  por  Pi. 

X2  =  F  =  valor  de  la  empresa  =  precio  de  las  acciones  comunes  y  preferentes  al  3 1  de  diciembre  (0  precio  promedio  del  3 1  de  diciembre  y  3 1  de  enero  del  ano 

siguiente)  multiplicado  por  el  numero  de  acciones  comunes  y  preferentes  en  circulation  mas  el  valor  total  de  la  deuda  en  libros  al  3 1  de  diciembre,  en  millones 
de  dolares  deflacionados  por  P2. 

X3  =  C  =  existencias  de  planta  y  equipo  =  suma  acumulada  de  adiciones  netas  a  planta  y  equipo  deflacionadas  por  Pi  menos  provision  para  depreciacion  deflacionada 
por  P3  en  estas  definiciones. 

Pi  =  factor  de  deflacion  implicito  de  los  precios  de  equipo  duradero  de  los  productores  (1947  =  100). 

P2  =  factor  de  deflacion  implicito  de  los  precios  del  P1B  (1947  =  100). 

P3  =  factor  de  deflacion  del  gasto  de  depreciacion  =  promedio  movil  de  10  afios  del  indice  de  precios  al  mayoreo  de  metales  y  productos  metalicos  (1947  =  100). 

Fuente:  Reproducido  de  H.  D.  Vinod  y  Aman  Ullah,  Recent  Advances  in  Regression  Methods,  Marcel  Dekker,  Nueva  York,  1981,  pp.  259-261. 
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Precision  de  los  datos15 

Si  bien  se  dispone  de  numerosos  datos  para  la  investigacion  economica,  su  calidad  no  siempre  es 
adecuada,  y  por  multiples  razones. 

1.  Como  ya  vimos,  en  su  mayoria,  los  datos  de  las  ciencias  sociales  son  de  naturaleza  no  ex¬ 
perimental.  Por  consiguiente,  es  posible  incurrir  en  errores  de  observacion,  sea  por  action  u 
omision. 

2.  Aun  en  datos  reunidos  experimentalmente  surgen  errores  de  medicion  debido  a  las  aproxima- 
ciones  o  al  redondeo. 

3.  En  encuestas  por  cuestionarios,  el  problema  de  la  falta  de  respuesta  puede  ser  grave;  un  inves- 
tigador  tiene  suerte  si  obtiene  una  tasa  de  respuesta  de  40%.  El  analisis  basado  en  dicha  tasa 
de  respuesta  parcial  quiza  no  refleje  de  verdad  el  comportamiento  del  60%  que  no  respondio, 
y  ocasione,  por  consiguiente,  un  sesgo  de  selectividad  (muestral).  Ademas,  existe  el  problema 
de  quienes  responden  el  cuestionario  pero  no  todas  las  preguntas,  sobre  todo  las  que  son  deli- 
cadas  por  tratar  cuestiones  financieras,  lo  que  genera  un  sesgo  adicional  de  selectividad. 

4.  Los  metodos  de  muestreo  para  obtencion  de  datos  llegan  a  variar  tanto  que  a  menudo  es  dificil 
comparar  los  resultados  de  las  diversas  muestras. 

5.  Las  cifras  economicas  suelen  estar  disponibles  en  niveles  muy  agregados.  Por  ejemplo,  la 
mayor  parte  de  los  macrodatos  (como  el  P1B,  empleo,  inflation,  desempleo)  estan  disponibles 
para  la  economia  en  su  conjunto,  o,  en  el  mejor  de  los  casos,  para  algunas  regiones  geograficas 
muy  amplias.  Los  datos  con  estos  niveles  tan  elevados  de  agregacion  tal  vez  no  ilustren  mucho 
sobre  los  sujetos  o  las  microunidades  objeto  de  estudio. 

6.  Debido  a  su  caracter  confidencial,  ciertos  datos  solo  pueden  publicarse  en  forma  muy  agregada. 
En  el  caso  de  Estados  Unidos,  por  ejemplo,  la  ley  prohibe  al  IRS  (hacienda)  revelar  informacion 
sobre  declaraciones  de  impuestos  individuales;  solo  puede  revelar  algunos  datos  generales.  Por 
consiguiente,  si  se  desea  conocer  el  monto  gastado  en  salud  por  los  individuos  con  cierto  nivel 
de  ingresos,  solo  es  posible  en  un  nivel  muy  agregado.  Pero  los  macroanalisis  de  este  tipo  con 
frecuencia  resultan  insuficientes  para  revelar  la  dinamica  del  comportamiento  de  las  microuni¬ 
dades.  De  igual  forma,  el  Departamento  de  Comercio  estadounidense,  que  levanta  el  censo 
de  empresas  cada  cinco  anos,  no  tiene  autorizacion  para  revelar  informacion  sobre  produc¬ 
tion,  empleo,  consumo  de  energia,  gastos  de  investigacion  y  desarrollo,  etc.,  de  las  empresas. 
Asi,  es  dificil  estudiar  las  diferencias  entre  las  empresas  en  estos  aspectos. 

Por  estos  problemas,  y  muchos  mas,  el  investigador  debe  tener  siempre  en  mente  que 
el  resultado  de  la  investigacion  sera  tan  bueno  como  lo  sea  la  calidad  de  los  datos.  Por 

tanto,  si  en  algunas  situaciones  los  investigadores  concluyen  que  los  resultados  de  la  investi¬ 
gacion  son  “insatisfactorios”,  la  causa  puede  ser  la  mala  calidad  de  los  datos  y  no  un  modelo 
equivocado.  Por  desgracia,  debido  a  la  naturaleza  no  experimental  de  los  datos  de  la  mayoria 
de  los  estudios  de  ciencias  sociales,  los  investigadores  con  frecuencia  no  tienen  mas  remedio 
que  depender  de  la  informacion  disponible.  Sin  embargo,  siempre  deben  tener  presente  que  los 
datos  pueden  no  ser  los  mejores  y  tratar  de  no  ser  muy  dogmaticos  sobre  los  resultados  de  un 
estudio  dado,  sobre  todo  cuando  la  calidad  de  los  datos  no  es  confiable. 


Una  observacion  sobre  las  escalas  de  medicion  de  las  variables16 

Las  variables  que  a  menudo  encontrara  se  clasifican  en  cuatro  categorias  generales:  escala  de 
razon,  escala  de  intervalo,  escala  ordinal  y  escala  nominal.  Es  importante  comprender  cada  una. 


15  Para  un  examen  crftico,  ver  O.  Morgenstern,  The  Accuracy  of  Economic  Observations,  2a.  ed.,  Princeton 
University  Press,  Princeton,  Nueva  Jersey,  1963. 

16  El  siguiente  analisis  se  basa  en  gran  medida  en  Aris  Spanos,  Probability  Theory  and  Statistical  inference:  Eco¬ 
nometric  Modeling  with  Observational  Data,  Cambridge  University  Press,  Nueva  York,  1 999,  p.  24. 
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Escala  de  razon 

Para  la  variable  X,  al  tomar  dos  valores  ( X\  y  Xi),  la  razon  X1/X2  y  la  distancia  (X2  —  X\)  son  can- 
tidades  con  un  significado.  Asimismo,  hay  un  ordenamiento  natural  (ascendente  o  descendente) 
de  los  valores  a  lo  largo  de  la  escala.  En  virtud  de  lo  anterior,  son  sensatas  las  comparaciones 
como  Xi  <X\  0X2  >X\.  En  su  mayorla,  las  variables  economicas  pertenecen  a  esta  categoria. 
Por  consiguiente,  no  es  descabellado  preguntar  a  cuanto  asciende  el  P1B  de  este  ano  en  compa- 
racion  con  el  del  ano  anterior.  El  ingreso  personal,  en  dolares,  es  una  variable  de  razon;  alguien 
que  gana  100  000  dolares  recibe  el  doble  que  quien  percibe  50  000  (antes  de  impuestos,  desde 
luego). 

Escala  de  intervalo 

Una  variable  en  escala  de  intervalo  satisface  las  dos  ultimas  propiedades  de  la  variable  en  escala 
de  razon,  pero  no  la  primera.  Por  tanto,  la  distancia  entre  dos  periodos,  (digamos  2000-1995), 
tiene  significado,  no  asi  la  razon  de  dos  periodos  (2000/1995).  A  las  11  de  la  manana  (hora  de  la 
costa  del  Pacifico  de  Estados  Unidos)  del  1 1  de  agosto  de  2007  se  registro  en  Portland,  Oregon, 
una  temperatura  de  60°  Fahrenheit  (15.5°  Celsius),  y  en  Tallahassee,  Florida,  de  90°  F  (32°  C). 
La  temperatura  con  esta  escala  no  se  mide  en  escala  de  razon  pues  no  tiene  sentido  decir  que  en 
Tallahassee  hizo  50%  mas  calor  que  en  Portland.  Esto  se  debe  sobre  todo  a  que  la  escala  Fahren¬ 
heit  no  usa  0°  como  base  natural. 

Escala  ordinal 

Una  variable  pertenece  a  esta  categoria  solo  si  satisface  la  tercera  propiedad  de  la  escala  de  razon 
(es  decir,  el  orden  natural),  como  los  sistemas  de  calificaciones  por  letras  (A,  B,  C)  o  los  niveles 
de  ingresos  alto,  medio  y  bajo).  Para  estas  variables  hay  un  orden,  pero  las  distancias  entre  las  ca- 
tegorias  no  son  cuantificables.  Los  estudiantes  de  economia  recordaran  las  curvas  de  indiferencia 
entre  dos  bienes,  en  donde  una  curva  superior  de  indiferencia  senala  un  mayor  nivel  de  utilidad, 
pero  no  se  puede  cuantificar  en  que  medida  una  curva  de  indiferencia  es  mayor  que  otra. 

Escala  nominal 

Las  variables  de  esta  categoria  no  tienen  ninguna  caracteristica  de  las  variables  en  escala  de 
razon.  Las  variables  como  el  genero  (masculino  y  femenino)  y  el  estado  civil  (casado,  soltero, 
divorciado,  separado)  simplemente  denotan  categorias.  Pregunta:  6por  que  no  expresar  dichas 
variables  con  las  escalas  de  razon,  intervalo  u  orden? 

Como  veremos,  las  tecnicas  econometricas  adecuadas  para  las  variables  en  escala  de  razon  no 
resultarian  pertinentes  para  las  variables  en  escala  nominal.  En  consecuencia,  es  importante  tener 
en  mente  las  diferencias  entre  los  cuatro  tipos  de  escalas  de  medicion  recien  analizadas. 


Resumen  y 
conclusiones 


1 .  La  idea  fundamental  del  analisis  de  regresion  es  la  dependencia  estadistica  de  una  variable,  la 
dependiente,  respecto  de  otra  o  mas  variables,  las  explicativas. 

2.  El  objetivo  de  tal  analisis  es  estimar  o  predecir  la  media  o  el  valor  promedio  de  la  variable 
dependiente  con  base  en  los  valores  conocidos  o  fijos  de  las  explicativas. 

3.  En  la  practica,  un  buen  analisis  de  regresion  depende  de  la  disponibilidad  de  datos  apropiados. 
En  este  capitulo  analizamos  la  naturaleza,  fuentes  y  limitaciones  de  los  datos  disponibles  para 
la  investigacion,  en  especial  en  las  ciencias  sociales. 

4.  En  toda  investigacion  se  debe  senalar  con  claridad  las  fuentes  de  los  datos  para  el  analisis,  sus 
definiciones,  sus  metodos  de  recoleccion  y  cualquier  laguna  u  omision  en  ellos,  asi  como  toda 
revision  que  se  les  haya  aplicado.  Tenga  en  cuenta  que  los  datos  macroeconomicos  que  publica 
el  gobierno  con  frecuencia  son  objeto  de  revision. 

5.  Como  el  lector  tal  vez  no  tenga  tiempo,  energia  o  recursos  para  llegar  a  la  fuente  original  de 
los  datos,  tiene  el  derecho  de  suponer  que  el  investigador  los  recopilo  de  manera  apropiada,  y 
que  los  calculos  y  analisis  son  correctos. 
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EJERCICIOS 


1.1.  La  tabla  1.3  proporciona  datos  sobre  el  indice  de  precios  al  consumidor  de  siete  paises  in- 
dustrializados,  cuya  base  es  1982-1984  =  100. 

a)  A  partir  de  estos  datos,  calcule  la  tasa  de  inflacion  en  cada  pais.17 

b )  Grafique  la  tasa  de  inflacion  de  cada  nacion  en  funcion  del  tiempo  (es  decir,  asigne  el  eje 
horizontal  al  tiempo,  y  el  vertical,  a  la  tasa  de  inflacion). 

c)  (',Que  conclusiones  generales  surgen  respecto  de  la  inflacion  en  los  siete  paises? 

d)  (,Quc  pais  tiene,  al  parecer,  la  tasa  de  inflacion  mas  variable?  /.Pucdc  explicarlo? 

1.2.  a)  Use  la  tabla  1 .3  para  trazar  la  grafica  de  la  tasa  de  inflacion  de  Canada,  Francia,  Alema- 

nia,  Italia,  Japon  y  Gran  Bretana,  en  comparacion  con  la  de  Estados  Unidos. 

b )  Comente  en  terminos  generales  el  comportamiento  de  la  tasa  de  inflacion  de  los  seis 
paises,  en  comparacion  con  la  de  Estados  Unidos. 

c)  Si  descubre  que  las  tasas  de  inflacion  de  esos  seis  paises  tienen  la  misma  direction  que 
la  de  Estados  Unidos,  /.esto  indicaria  que  la  inflacion  en  Estados  Unidos  “provoca”  la 
inflacion  en  los  demas  paises?  (',Por  que? 


TABLA  1.3 

Estados 

IPC  de  siete  paises 

Ano 

Unidos 

Canada 

industrializados, 

1980 

82.4 

76.1 

1980-2005 

1981 

90.9 

85.6 

(1982-1984  =  100) 

1982 

96.5 

94.9 

Fuente:  Economic  Report  of  the 

1983 

99.6 

100.4 

President,  2007,  tabla  108,  p.  354. 

1984 

103.9 

104.7 

1985 

107.6 

109.0 

1986 

109.6 

113.5 

1987 

113.6 

118.4 

1988 

118.3 

123.2 

1989 

124.0 

129.3 

1990 

130.7 

135.5 

1991 

136.2 

143.1 

1992 

140.3 

145.3 

1993 

144.5 

147.9 

1994 

148.2 

148.2 

1995 

152.4 

151.4 

1996 

156.9 

153.8 

1997 

160.5 

156.3 

1998 

163.0 

157.8 

1999 

166.6 

160.5 

2000 

172.2 

164.9 

2001 

177.1 

169.1 

2002 

179.9 

172.9 

2003 

184.0 

177.7 

2004 

188.9 

181.0 

2005 

195.3 

184.9 

japon 

Francia 

Alemania 

Italia 

Gran 

Bretana 

91.0 

72.2 

86.7 

63.9 

78.5 

95.3 

81.8 

92.2 

75.5 

87.9 

98.1 

91.7 

97.0 

87.8 

95.4 

99.8 

100.3 

100.3 

100.8 

99.8 

102.1 

108.0 

102.7 

111.4 

104.8 

104.2 

114.3 

104.8 

121.7 

111.1 

104.9 

117.2 

104.6 

128.9 

114.9 

104.9 

121.1 

104.9 

135.1 

119.7 

105.6 

124.3 

106.3 

141.9 

125.6 

108.0 

128.7 

109.2 

150.7 

135.4 

111.4 

132.9 

112.2 

160.4 

148.2 

115.0 

137.2 

116.3 

170.5 

156.9 

117.0 

140.4 

122.2 

179.5 

162.7 

118.5 

143.4 

127.6 

187.7 

165.3 

119.3 

145.8 

131.1 

195.3 

169.3 

119.2 

148.4 

133.3 

205.6 

175.2 

119.3 

151.4 

135.3 

213.8 

179.4 

121.5 

153.2 

137.8 

218.2 

185.1 

122.2 

154.2 

139.1 

222.5 

191.4 

121.8 

155.0 

140.0 

226.2 

194.3 

121.0 

157.6 

142.0 

231.9 

200.1 

120.1 

160.2 

144.8 

238.3 

203.6 

119.0 

163.3 

146.7 

244.3 

207.0 

118.7 

166.7 

148.3 

250.8 

213.0 

118.7 

170.3 

150.8 

256.3 

219.4 

118.3 

173.2 

153.7 

261.3 

225.6 

17  Reste  del  IPC  del  ano  en  cuestion  el  IPC  del  ano  anterior,  divida  la  diferencia  entre  el  IPC  del  ano  anterior 
y  multiplique  el  resultado  por  100.  Asf,  la  tasa  de  inflacion  de  Canada  en  1981  fue  de  [(85.6  -  76.1  )/76.1  ] 
x  100  =  12.48%  (aproximadamente). 
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1.3.  En  la  tabla  1.4  se  presentan  los  tipos  de  cambio  de  nueve  palses  industrializados  corres- 
pondientes  a  1985-2006.  Excepto  para  Gran  Bretana,  el  tipo  de  cambio  se  define  como  las 
unidades  de  la  divisa  equivalentes  a  un  dolar  estadounidense;  para  ese  pais,  se  define  como 
el  numero  de  dolares  estadounidenses  que  se  cambian  por  una  libra  inglesa. 

a)  Grafique  los  tipos  de  cambio  en  funcion  del  tiempo  y  comente  el  comportamiento  gene¬ 
ral  de  los  tipos  de  cambio  durante  el  periodo. 

b )  Se  dice  que  el  dolar  tiene  una  apreciacion  si  se  compran  mas  unidades  de  una  divisa. 
Por  el  contrario,  se  dice  que  sufre  una  depreciation  si  se  adquieren  menos  divisas.  En  el 
periodo  1985-2006,  en  general,  ^que  comportamiento  tuvo  el  dolar  estadounidense?  A 
proposito,  busque  en  un  texto  de  macroeconomia  o  economia  internacional  los  factores 
que  determinan  la  apreciacion  o  depreciacion  de  una  moneda. 

1.4.  En  la  tabla  1.5  aparecen  los  datos  en  los  que  se  basa  la  oferta  de  dinero  Ml  de  la  figura  1.5. 
^Puede  explicar  por  que  se  incremento  la  oferta  de  dinero  durante  el  periodo  que  se  muestra 
en  la  tabla? 

1.5.  Suponga  que  va  a  crear  un  modelo  economico  de  actividades  delictivas  en  el  que  considere 
las  horas  invertidas  en  ellas  (por  ejemplo,  en  la  venta  de  drogas).  /,Quc  variables  tomaria  en 
cuenta  para  crear  dicho  modelo?  Vea  si  su  modelo  se  asemeja  al  del  economista  ganador  del 
premio  Nobel,  Gary  Becker.18 


TABLA  1 .4  Tipos  de  cambio  de  nueve  paises:  1985-2006 


R.  P.  de 

Corea 

Gran 

Ano 

Australia 

Canada 

China 

Japon 

Mexico 

del  Sur 

Suecia 

Suiza 

Bretana 

1985 

0.7003 

1.3659 

2.9434 

238.47 

0.257 

872.45 

8.6032 

2.4552 

1 .2974 

1986 

0.6709 

1.3896 

3.4616 

168.35 

0.612 

884.60 

7.1273 

1.7979 

1.4677 

1987 

0.7014 

1.3259 

3.7314 

144.60 

1.378 

826.16 

6.3469 

1.4918 

1.6398 

1988 

0.7841 

1.2306 

3.7314 

128.17 

2.273 

734.52 

6.1370 

1.4643 

1.7813 

1989 

0.7919 

1.1842 

3.7673 

138.07 

2.461 

674.13 

6.4559 

1.6369 

1.6382 

1990 

0.7807 

1.1668 

4.7921 

145.00 

2.813 

710.64 

5.9231 

1.3901 

1.7841 

1991 

0.7787 

1.1460 

5.3337 

134.59 

3.018 

736.73 

6.0521 

1.4356 

1.7674 

1992 

0.7352 

1.2085 

5.5206 

126.78 

3.095 

784.66 

5.8258 

1 .4064 

1.7663 

1993 

0.6799 

1.2902 

5.7795 

111.08 

3.116 

805.75 

7.7956 

1.4781 

1.5016 

1994 

0.7316 

1.3664 

8.6397 

102.18 

3.385 

806.93 

7.7161 

1.3667 

1.5319 

1995 

0.7407 

1.3725 

8.3700 

93.96 

6.447 

772.69 

7.1406 

1.1812 

1.5785 

1996 

0.7828 

1.3638 

8.3389 

108.78 

7.600 

805.00 

6.7082 

1.2361 

1.5607 

1997 

0.7437 

1.3849 

8.3193 

121.06 

7.918 

953.19 

7.6446 

1.4514 

1.6376 

1998 

0.6291 

1.4836 

8.3008 

130.99 

9.152 

1  400.40 

7.9522 

1.4506 

1.6573 

1999 

0.6454 

1.4858 

8.2783 

113.73 

9.553 

1  189.84 

8.2740 

1.5045 

1.6172 

2000 

0.5815 

1.4855 

8.2784 

107.80 

9.459 

1  130.90 

9.1735 

1 .6904 

1.5156 

2001 

0.5169 

1.5487 

8.2770 

121.57 

9.337 

1  292.02 

10.3425 

1.6891 

1.4396 

2002 

0.5437 

1.5704 

8.2771 

125.22 

9.663 

1  250.31 

9.7233 

1.5567 

1.5025 

2003 

0.6524 

1 .4008 

8.2772 

115.94 

10.793 

1  192.08 

8.0787 

1.3450 

1.6347 

2004 

0.7365 

1.3017 

8.2768 

108.15 

11.290 

1  145.24 

7.3480 

1.2428 

1.8330 

2005 

0.7627 

1.2115 

8.1936 

110.11 

10.894 

1  023.75 

7.4710 

1.2459 

1 .8204 

2006 

0.7535 

1.1340 

7.9723 

116.31 

10.906 

954.32 

7.3718 

1.2532 

1.8434 

Fuente:  Economic  Report  of  the  President,  2007,  tabla  B-l  10,  p.  356. 


18  C.  S.  Becker,  "Crime  and  Punishment:  An  Economic  Approach",  journal  of  Political  Economy,  vol.  76,  1 968, 
pp.  169-217. 
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TABLA  1.5 

Oferta  de  dinero 
Ml  ajustada  por 
estacionalidad:  enero  de 
1959-julio  de  1999  (miles 
de  millones  de  dolares) 

Fuente:  Board  of  Governors, 
Federal  Reserve  Bank,  Estados 
Unidos. 


1959:01 

138.8900 

139.3900 

139.7400 

139.6900 

140.6800 

141.1700 

1959:07 

141.7000 

141.9000 

141.0100 

140.4700 

140.3800 

139.9500 

1960:01 

139.9800 

139.8700 

139.7500 

139.5600 

139.6100 

139.5800 

1960:07 

140.1800 

141.3100 

141.1800 

140.9200 

140.8600 

140.6900 

1961:01 

141.0600 

141.6000 

141.8700 

142.1300 

142.6600 

142.8800 

1961:07 

142.9200 

143.4900 

143.7800 

144.1400 

144.7600 

145.2000 

1962:01 

145.2400 

145.6600 

145.9600 

146.4000 

146.8400 

146.5800 

1962:07 

146.4600 

146.5700 

146.3000 

146.7100 

147.2900 

147.8200 

1963:01 

148.2600 

148.9000 

149.1700 

149.7000 

150.3900 

150.4300 

1963:07 

151.3400 

151.7800 

151.9800 

152.5500 

153.6500 

153.2900 

1964:01 

153.7400 

154.3100 

154.4800 

154.7700 

155.3300 

155.6200 

1964:07 

156.8000 

157.8200 

158.7500 

159.2400 

159.9600 

160.3000 

1965:01 

160.7100 

160.9400 

161.4700 

162.0300 

161.7000 

162.1900 

1965:07 

163.0500 

163.6800 

164.8500 

165.9700 

166.7100 

167.8500 

1966:01 

169.0800 

169.6200 

170.5100 

171.8100 

171.3300 

171.5700 

1966:07 

170.3100 

170.8100 

171.9700 

171.1600 

171.3800 

172.0300 

1967:01 

171.8600 

1  72.9900 

174.8100 

174.1700 

175.6800 

177.0200 

1967:07 

178.1300 

179.7100 

180.6800 

181.6400 

182.3800 

183.2600 

1968:01 

184.3300 

184.7100 

185.4700 

186.6000 

187.9900 

189.4200 

1968:07 

190.4900 

191.8400 

192.7400 

194.0200 

196.0200 

197.4100 

1969:01 

198.6900 

199.3500 

200.0200 

200.7100 

200.8100 

201.2700 

1969:07 

201.6600 

201.7300 

202.1000 

202.9000 

203.5700 

203.8800 

1970:01 

206.2200 

205.0000 

205.7500 

206.7200 

207.2200 

207.5400 

1970:07 

207.9800 

209.9300 

211.8000 

212.8800 

213.6600 

214.4100 

1971:01 

215.5400 

21  7.4200 

218.7700 

220.0000 

222.0200 

223.4500 

1971:07 

224.8500 

225.5800 

226.4700 

227.1600 

227.7600 

228.3200 

1972:01 

230.0900 

232.3200 

234.3000 

235.5800 

235.8900 

236.6200 

1972:07 

238.7900 

240.9300 

243.1800 

245.0200 

246.4100 

249.2500 

1973:01 

251.4700 

252.1500 

251.6700 

252.7400 

254.8900 

256.6900 

1973:07 

257.5400 

257.7600 

257.8600 

259.0400 

260.9800 

262.8800 

1974:01 

263.7600 

265.3100 

266.6800 

267.2000 

267.5600 

268.4400 

1974:07 

269.2700 

270.1200 

271 .0500 

272.3500 

273.7100 

274.2000 

1975:01 

273.9000 

275.0000 

276.4200 

276.1700 

279.2000 

282.4300 

1975:07 

283.6800 

284.1500 

285.6900 

285.3900 

286.8300 

287.0700 

1976:01 

288.4200 

290.7600 

292.7000 

294.6600 

295.9300 

296.1600 

1976:07 

297.2000 

299.0500 

299.6700 

302.0400 

303.5900 

306.2500 

1977:01 

308.2600 

311.5400 

313.9400 

316.0200 

317.1900 

318.7100 

1977:07 

320.1900 

322.2700 

324.4800 

326.4000 

328.6400 

330.8700 

1978:01 

334.4000 

335.3000 

336.9600 

339.9200 

344.8600 

346.8000 

1978:07 

347.6300 

349.6600 

352.2600 

353.3500 

355.4100 

357.2800 

1979:01 

358.6000 

359.9100 

362.4500 

368.0500 

369.5900 

373.3400 

1979:07 

377.2100 

378.8200 

379.2800 

380.8700 

380.8100 

381.7700 

1980:01 

385.8500 

389.7000 

388.1300 

383.4400 

384.6000 

389.4600 

1980:07 

394.9100 

400.0600 

405.3600 

409.0600 

410.3700 

408.0600 

1981:01 

410.8300 

414.3800 

418.6900 

427.0600 

424.4300 

425.5000 

1981:07 

427.9000 

427.8500 

427.4600 

428.4500 

430.8800 

436.1700 

1982:01 

442.1300 

441 .4900 

442.3700 

446.7800 

446.5300 

447.8900 

1982:07 

449.0900 

452.4900 

457.5000 

464.5700 

471.1200 

474.3000 

1983:01 

476.6800 

483.8500 

490.1800 

492.7700 

499.7800 

504.3500 

1983:07 

508.9600 

511.6000 

513.4100 

517.2100 

518.5300 

520.7900 

1984:01 

524.4000 

526.9900 

530.7800 

534.0300 

536.5900 

540.5400 

1984:07 

542.1300 

542.3900 

543.8600 

543.8700 

547.3200 

551.1900 

1985:01 

555.6600 

562.4800 

565.7400 

569.5500 

575.0700 

583.1700 

1985:07 

590.8200 

598.0600 

604.4700 

607.9100 

611.8300 

619.3600 

1986:01 

620.4000 

624.1400 

632.8100 

640.3500 

652.0100 

661.5200 

(continua) 
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1986:07 

672.2000 

680.7700 

688.5100 

695.2600 

705.2400 

724.2800 

(continnacidn) 

1987:01 

729.3400 

729.8400 

733.0100 

743.3900 

746.0000 

743.7200 

1987:07 

744.9600 

746.9600 

748.6600 

756.5000 

752.8300 

749.6800 

1988:01 

755.5500 

757.0700 

761.1800 

767.5700 

771.6800 

779.1000 

1988:07 

783.4000 

785.0800 

784.8200 

783.6300 

784.4600 

786.2600 

1989:01 

784.9200 

783.4000 

782.7400 

778.8200 

774.7900 

774.2200 

1989:07 

779.7100 

781.1400 

782.2000 

787.0500 

787.9500 

792.5700 

1990:01 

794.9300 

797.6500 

801.2500 

806.2400 

804.3600 

810.3300 

1990:07 

811.8000 

817.8500 

821.8300 

820.3000 

822.0600 

824.5600 

1991:01 

826.7300 

832.4000 

838.6200 

842.7300 

848.9600 

858.3300 

1991:07 

862.9500 

868.6500 

871.5600 

878.4000 

887.9500 

896.7000 

1992:01 

910.4900 

925.1300 

936.0000 

943.8900 

950.7800 

954.7100 

1992:07 

964.6000 

975.7100 

988.8400 

1  004.340 

1  016.040 

1 

024.450 

1993:01 

1  030.900 

1  033.150 

1  037.990 

1  047.470 

1  066.220 

1 

075.610 

1993:07 

1  085.880 

1  095.560 

1  105.430 

1  113.800 

1  123.900 

1 

129.310 

1994:01 

1  132.200 

1  136.130 

1  139.910 

1  141.420 

1  142.850 

1 

145.650 

1994:07 

1  151.490 

1  151.390 

1  152.440 

1  150.410 

1  150.440 

1 

149.750 

1995:01 

1  150.640 

1  146.740 

1  146.520 

1  149.480 

1  144.650 

1 

144.240 

1995:07 

1  146.500 

1  146.100 

1  142.270 

1  136.430 

1  133.550 

1 

126.730 

1996:01 

1  122.580 

1  117.530 

1  122.590 

1  124.520 

1  116.300 

1 

115.470 

1996:07 

1  112.340 

1  102.180 

1  095.610 

1  082.560 

1  080.490 

1 

081.340 

1997:01 

1  080.520 

1  076.200 

1  072.420 

1  067.450 

1  063.370 

1 

065.990 

1997:07 

1  067.570 

1  072.080 

1  064.820 

1  062.060 

1  067.530 

1 

074.870 

1998:01 

1  073.810 

1  076.020 

1  080.650 

1  082.090 

1  078.170 

1 

077.780 

1998:07 

1  075.370 

1  072.210 

1  074.650 

1  080.400 

1  088.960 

1 

093.350 

1999:01 

1  091.000 

1  092.650 

1  102.010 

1  108.400 

1  104.750 

1 

101.110 

1999:07 

1  099.530 

1  102.400 

1  093.460 

1.6.  Experimentos  controlados  en  economia:  El  7  de  abril  de  2000,  el  presidente  Clinton  con- 
virtio  en  ley  una  propuesta  aprobada  por  ambas  camaras  legislativas  estadounidenses  me- 
diante  la  cual  se  eliminaban  las  limitaciones  de  beneficios  para  los  derechohabientes  del 
sistema  de  seguridad  social.  Antes  de  esa  ley,  los  derechohabientes  de  entre  65  y  69  anos 
con  percepciones  mayores  de  1 7  000  dolares  al  ano  perdian  el  equivalente  a  un  dolar  de  las 
prestaciones  de  seguridad  social  por  cada  3  dolares  de  ingresos  que  excedieran  1 7  000  do¬ 
lares.  ^Como  se  planearia  un  estudio  que  evaluara  el  efecto  de  este  cambio  en  la  ley?  Not  a: 
En  la  ley  derogada  no  habia  restriction  de  ingresos  para  los  derechohabientes  de  mas  de  70 
anos. 

1.7.  Los  datos  de  la  tabla  1.6  se  publicaron  el  primero  de  marzo  de  1984  en  el  periodico  The 
Wall  Street  Journal.  Se  refieren  al  presupuesto  publicitario  (en  millones  de  dolares)  de  2 1 
empresas  en  1983  y  a  los  millones  de  impactos  semanales  (veces  que  los  clientes  ven  los 
anuncios  de  los  productos  de  dichas  companias  por  semana).  La  information  se  basa  en  una 
encuesta  a  4  000  adultos  en  la  que  se  pidio  a  los  usuarios  de  los  productos  que  mencionaran 
un  comercial  que  hubieran  visto  en  la  semana  anterior  y  que  tuviera  que  ver  con  la  categoria 
del  producto. 

a)  Trace  una  grafica  con  los  impactos  en  el  eje  vertical  y  el  gasto  publicitario  en  el  hori¬ 
zontal. 

b )  (',Quc  se  puede  decir  sobre  la  relation  entre  ambas  variables? 

c)  Al  observar  la  grafica,  ^cree  que  es  redituable  el  gasto  en  publicidad?  Piense  en  todos 
los  comerciales  que  se  transmiten  el  domingo  que  se  juega  el  Super  Bowl  o  durante  la 
Serie  Mundial  del  beisbol  estadounidense. 

Nota:  En  los  siguientes  capitulos  estudiaremos  mas  a  fondo  los  datos  de  la  tabla  1.6. 
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TABLA  1.6 

Efecto  del  gasto  en 
publicidad 

Fuente:  http://lib.stat.cmu.edu/ 
DASL/Datafiles/tvadsdat.html. 


Impactos, 

Gasto,  millones  de 

Empresa 

millones 

dolares  de  1983 

1.  Miller  Lite 

32.1 

50.1 

2.  Pepsi 

99.6 

74.1 

3.  Stroh's 

11.7 

19.3 

4.  Fed'l  Express 

21.9 

22.9 

5.  Burger  King 

60.8 

82.4 

6.  Coca-Cola 

78.6 

40.1 

7.  McDonald's 

92.4 

185.9 

8.  MCI 

50.7 

26.9 

9.  Diet  Cola 

21.4 

20.4 

10.  Ford 

40.1 

166.2 

1 1 .  Levi's 

40.8 

27.0 

12.  Bud  Lite 

10.4 

45.6 

13.  ATT/Bell 

88.9 

154.9 

14.  Calvin  Klein 

12.0 

5.0 

15.  Wendy's 

29.2 

49.7 

16.  Polaroid 

38.0 

26.9 

1  7.  Shasta 

10.0 

5.7 

1 8.  Meow  Mix 

12.3 

7.6 

19.  Oscar  Meyer 

23.4 

9.2 

20.  Crest 

71.1 

32.4 

21 .  Kibbles  'N  Bits 

4.4 

6.1 

Capitulo 


Analisis  de  regresion 
con  dos  variables: 
algunas  ideas  basicas 

En  el  capitulo  1  vimos  el  concepto  de  regresion  en  terminos  generales.  En  este  capitulo  lo  abor- 
damos  mas  formalmente.  De  manera  especifica,  este  capitulo  y  los  tres  siguientes  introduciran 
al  lector  a  la  teorla  basica  del  analisis  de  regresion  mas  sencillo  posible,  es  decir,  la  regresion 
bivariable  o  con  dos  variables,  en  la  cual  la  variable  dependiente  (la  regresada)  se  relaciona 
con  una  sola  variable  explicativa  (la  regresora).  Consideremos  primero  este  caso  no  necesa- 
riamente  por  su  adecuacion  practica,  sino  porque  presenta  las  ideas  fundamentales  del  analisis 
de  regresion  de  la  manera  mas  sencilla  posible,  y  algunas  de  estas  ideas  pueden  ilustrarse  con 
diagramas  bidimensionales.  Ademas,  como  veremos,  el  analisis  de  regresion  multiple,  mas  ge¬ 
neral,  en  el  que  la  regresada  se  relaciona  con  mas  de  una  regresora,  es,  en  muchos  sentidos,  una 
extension  logica  del  caso  de  dos  variables. 

2.1  Ejemplo  hipotetico1 


Como  se  senalo  en  la  section  1.2,  el  analisis  de  regresion  se  relaciona  en  gran  medida  con  la 
estimation  o  prediccion  de  la  media  (de  la  poblacion)  o  valor  promedio  de  la  variable  depen¬ 
diente,  con  base  en  los  valores  conocidos  o  fijos  de  las  variables  explicativas.2  Para  entender  esto, 
consideremos  los  datos  de  la  tabla  2.1.  Estos  datos  se  refieren  a  la  poblacion  total  de  60  familias 
de  una  comunidad  hipotetica,  asi  como  a  su  ingreso  semanal  (X)  y  su  gasto  de  consumo  semanal 
(E),  en  dolares.  Las  60  familias  se  dividen  en  10  grupos  de  ingresos  (de  80  dolares  a  260);  asi- 
mismo,  aparecen  los  gastos  semanales  de  cada  familia  de  los  diversos  grupos.  Por  consiguiente, 
hay  10  valores  fijos  de  Ay  los  correspondientes  valores  E  para  cada  valor  X;  asi,  hay  10  subpo- 
blaciones  Y. 

Se  observa  una  variacion  considerable  en  el  consumo  semanal  de  cada  grupo  de  ingreso,  lo 
cual  se  aprecia  con  claridad  en  la  figura  2.1.  No  obstante,  el  panorama  general  es  que,  a  pesar 
de  la  variabilidad  del  consumo  semanal  en  cada  nivel  de  ingreso  considerado,  en  promedio,  el 
consumo  semanal  se  incrementa  a  medida  que  aumenta  el  ingreso.  Para  verificar  lo  anterior,  en  la 


1  Se  recomienda  al  lector  cuyos  conocimientos  de  estadlstica  esten  un  poco  empolvados  que,  para  refrescar- 
los,  antes  de  leer  este  capitulo  consulte  el  apendice  estadlstico,  apendice  A. 

2  El  valor  esperado,  esperanza  o  media  poblacional  de  una  variable  aleatoria  Y se  denota  con  el  slmbolo  E(Y). 
Por  otra  parte,  el  valor  medio  calculado  a  partir  de  una  muestra  de  valores  tomada  de  una  poblacion  Y  se 
denota  como  7,  y  se  lee  "Y  barra". 
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TAB  LA  2.1 

Ingreso  familiar 
semanal  X,  S 


80 

100 

120 

140 

160 

180 

200 

220 

240 

260 

Consumo  familiar 

55 

65 

79 

80 

102 

110 

120 

135 

137 

150 

semanal  Y,  $ 

60 

70 

84 

93 

107 

115 

136 

137 

145 

152 

65 

74 

90 

95 

110 

120 

140 

140 

155 

175 

70 

80 

94 

103 

116 

130 

144 

152 

165 

178 

75 

85 

98 

108 

118 

135 

145 

157 

175 

180 

- 

88 

- 

113 

125 

140 

- 

160 

189 

185 

- 

- 

- 

115 

- 

- 

- 

162 

- 

191 

Total 

325 

462 

445 

707 

678 

750 

685 

1  043 

966 

1  211 

Media  condicional 

de  Y,  E{Y \X) 

65 

77 

89 

101 

113 

125 

137 

149 

161 

173 

tabla  2. 1  se  proporciona  la  media,  o  promedio,  del  consumo  semanal  que  corresponde  a  cada  uno 
de  los  10  niveles  de  ingresos.  Asi,  al  nivel  de  ingreso  de  80  dolares  le  corresponde  una  media  de 
consumo  igual  a  65  dolares,  pero  para  el  nivel  de  200,  la  media  es  de  137.  En  total  hay  10  valores 
medios  para  las  10  subpoblaciones  de  Y.  A  estos  valores  medios  se  les  llama  valores  esperados 
condicionales,  en  virtud  de  que  dependen  de  los  valores  de  la  variable  (condicional)  X.  En  forma 
simbolica,  se  denotan  con  E(Y  \  X),  lo  cual  se  lee  como  el  valor  esperado  de  Y,  dado  el  valor  de 
X (ver  tambien  la  tabla  2.2). 

Es  importante  distinguir  entre  los  valores  esperados  condicionales  y  el  valor  esperado  in- 
condicional  del  consumo  semanal,  E{Y).  Si  sumamos  los  consumos  semanales  de  las  60  familias 
que  forman  la  poblacion  y  dividimos  este  numero  entre  60,  obtendremos  la  cantidad  de  121.20 
dolares  ($7  272/60),  que  es  el  valor  de  la  media  incondicional,  o  esperada,  del  consumo  sema¬ 
nal,  E(Y)\  es  incondicional  porque,  para  obtener  esta  cifra,  obviamos  los  niveles  de  ingreso  de 
las  diversas  familias.3  Como  es  logico,  los  diferentes  valores  esperados  condicionales  de  Y  de  la 


FIGURA  2.1 

Distribucion  condicional 
del  gasto  en  varios  nive¬ 
les  de  ingreso  (datos  de  la 
tabla  2.1). 


3  Como  se  muestra  en  el  apendice  A,  los  valores  de  las  medias  condicionales  e  incondicionales  suelen 
diferir. 
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TAB  LA  2.2 

Probabilidades 
condicionales  /;( V  \  X;) 
para  los  datos  de  la 
tabla  2.1 


tabla  2.1  varian  respecto  del  valor  esperado  incondicional  de  Y  igual  a  121.20  dolares.  Cuando 
se  plantea  la  pregunta  “/.cual  es  el  valor  esperado  del  consumo  semanal  de  una  familia?”,  la  res- 
puesta  es  121.20  dolares  (la  media  incondicional).  Pero  si  se  pregunta  “/.cual  es  el  valor  esperado 
del  consumo  semanal  de  una  familia  cuyo  ingreso  mensual  es  de  140  dolares?”,  la  respuesta  es 
101  (la  media  condicional).  En  otras  palabras,  a  la  pregunta  “/.cual  es  la  mejorprediccion  (media) 
del  gasto  semanal  de  las  familias  con  un  ingreso  semanal  de  140  dolares?”,  la  respuesta  es  101 
dolares.  Por  consiguiente,  conocer  el  nivel  de  ingreso  permite  predecir  mejor  el  valor  medio  del 
consumo  que  si  se  ignora  esa  informacion.4  Tal  vez  sea  esta  la  esencia  del  analisis  de  regresion, 
como  lo  descubriremos  a  lo  largo  de  este  libro. 

Los  puntos  oscuros  dentro  de  circulos  de  la  figura  2.1  muestran  los  valores  medios  condicio¬ 
nales  de  Y,  graficados  en  funcion  de  los  diferentes  valores  de  X.  A1  unir  esos  valores  obtenemos 
la  lfnea  de  regresion  poblacional  (LRP),  o,  mas  general,  la  curva  de  regresion  poblacional 
(CRP).5  Con  palabras  mas  sencillas,  es  la  regresion  de  Y  sobre  X.  El  adjetivo  “poblacional”  se 
debe  a  que  en  este  ejemplo  trabajamos  con  la  poblacion  total  de  60  familias.  Por  supuesto,  en 
realidad  una  poblacion  tendria  mas  familias. 

Asi,  desde  el  punto  de  vista  geometrico,  una  curva  de  regresion  poblacional  es  tan  solo  el 
lugar  geometrico  de  las  medias  condicionales  de  la  variable  dependiente  para  los  valores  fijos 
de  la(s)  variable(s)  explicativa(s).  En  palabras  mas  simples,  es  la  curva  que  conecta  las  medias 
de  las  subpoblaciones  de  Y  que  corresponden  a  los  valores  dados  de  la  re  g  res  ora  X.  Lo  anterior  se 
ve  de  manera  grafica  en  la  figura  2.2. 

Esta  figura  muestra  que  para  cada  X  (es  decir,  el  nivel  de  ingresos)  existe  una  poblacion 
de  valores  Y  (consumo  semanal)  que  se  distribuyen  alrededor  de  la  media  (condicional)  de  di- 
chos  valores  Y.  Por  simplicidad,  suponemos  que  tales  valores  Y  estan  distribuidos  simetricamente 
alrededor  de  sus  respectivos  valores  medios  (condicionales).  Asimismo,  la  recta  (o  curva)  de 
regresion  pasa  a  traves  de  los  mencionados  valores  medios  (condicionales). 

Con  estos  antecedentes,  es  util  para  el  lector  leer  de  nuevo  la  definition  de  regresion  de  la 
section  1.2. 


4  Estoy  en  deuda  con  James  Davidson  por  esta  perspectiva.  Ver  James  Davidson,  Econometric  Theory, 
Blackwell,  Oxford,  Gran  Bretana,  2000,  p.  1 1 . 

s  En  el  presente  ejemplo,  la  LRP  es  una  recta,  pero  podrfa  ser  una  curva  (ver  la  figura  2.3). 


Capftulo  2  Analisis  de  regresion  con  dos  variables:  algunas  ideas  basicas  37 


FIGURA  2.2 

Llnea  de  regresion  po- 
blacional  (datos  de  la 
tabla  2.1). 


Y 


Ingreso  semanal,  $ 


2.2  Concepto  de  funcion  de  regresion  poblacional  (FRP) 


De  la  anterior  exposicion,  y  en  especial  de  las  figuras  2. 1  y  2.2,  es  claro  que  cada  media  condicio- 
nal  E(  Y  \  X,)  es  funcion  de  Xt,  donde  X,  es  un  valor  dado  de  X.  Simbolicamente, 

E(Y\Xi)  =  f(Xi)  (2.2.1) 

donde  /(X))  denota  alguna  funcion  de  la  variable  explicativa  X.  En  el  ejemplo,  E(  Y  \  X,)  es  una 
funcion  lineal  de  Xj.  La  ecuacion  (2.2.1)  se  conoce  como  funcion  de  esperanza  condicional 
(FEC),  funcion  de  regresion  poblacional  (FRP)  o  regresion  poblacional  (RP),  para  abreviar. 
Dicha  funcion  solo  denota  que  el  valor  esperado  de  la  distribucion  de  Y  dada  X,  se  relaciona 
funcionalmente  con  X,.  En  otras  palabras,  dice  como  la  media  o  respuesta  promedio  de  Y  varia 
conX. 

pQue  forma  adopta  la  funcion  /(X,)?  Esta  pregunta  es  importante  porque  en  una  situation  real 
no  disponemos  de  toda  la  poblacion  para  efectuar  el  analisis.  La  forma  funcional  de  la  FRP  es  por 
consiguiente  una  pregunta  empirica,  aunque  en  casos  especificos  la  teoria  tiene  algo  que  decir. 
Por  ejemplo,  un  economista  puede  plantear  que  el  consumo  manifiesta  una  relation  lineal  con  el 
ingreso.  Por  tanto,  como  primera  aproximacion  o  hipotesis  de  trabajo,  podemos  suponer  que  la 
FRP  E(Y  |  X)  es  una  funcion  lineal  de  X„  del  tipo 


E(Y  |  Xt)  =  +  foXt  (2.2.2) 

donde  /Si  y  /S2  son  parametros  no  conocidos  pero  fijos  que  se  denominan  coeficientes  de  regre¬ 
sion;  Zb  y  /S2  se  conocen  tambien  como  coeficientes  de  interseccion  y  de  pendiente,  respecti- 
vamente.  La  ecuacion  (2.2.1)  se  conoce  como  funcion  de  regresion  poblacional  lineal.  En  la 
bibliografia  aparecen  otras  expresiones,  como  modelo  de  regresion  poblacional  lineal  o  solo 
regresion  poblacional  lineal.  En  lo  sucesivo,  consideraremos  sinonimos  los  terminos  regresion, 
ecuacion  de  regresion  y  modelo  de  regresion. 
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En  el  analisis  de  regresion,  la  idea  es  estimar  las  FRP  como  la  ecuacion  (2.2.2);  es  decir,  es- 
timar  los  valores  no  conocidos  de  P\  y  /b  con  base  en  las  observaciones  de  Y  y  X.  Veremos  este 
tema  con  mas  detalle  en  el  capltulo  3. 


2.3  Sigiiificado  del  termino  lineal 


Como  este  texto  se  relaciona  sobre  todo  con  modelos  lineales,  como  la  ecuacion  (2.2.2),  es  esen- 
cial  entender  a  cabalidad  el  termino  lineal ,  pues  se  interpreta  de  dos  formas. 


Linealidad  en  las  variables 

El  primer  significado,  y  tal  vez  el  mas  “natural”,  de  linealidad  es  aquel  en  que  la  esperanza 
condicional  de  Y  es  una  funcion  lineal  de  X„  como  en  la  ecuacion  (2. 2. 2). 6  Geometric amente, 
la  curva  de  regresion  en  este  caso  es  una  recta.  En  esta  interpretacion,  una  funcion  de  regresion 
como  E ( Y  |  Xj)  —  Pi  +  pjXj  no  es  una  funcion  lineal  porque  la  variable  X  aparece  elevada  a  una 
potencia  o  indice  de  2. 


Linealidad  en  los  parametros 

La  segunda  interpretacion  de  linealidad  se  presenta  cuando  la  esperanza  condicional  de  Y, 
E(Y  |  Xj),  es  una  funcion  lineal  de  los  parametros,  los  P;  puede  ser  o  no  lineal  en  la  variable  X 7  De 
acuerdo  con  esta  interpretacion,  E(Y  \Xj)  —  P\  +  fcXj  es  un  modelo  de  regresion  lineal  (en  el 
parametro).  Para  ver  lo  anterior,  supongamos  queXtiene  un  valor  de  3.  Portanto,  E(Y  \  X—  3)  = 
Pi  +  9Pi,  ecuacion  a  todas  luces  lineal  en  Pi  y  /b.  En  consecuencia,  todos  los  modelos  de  la 
figura  2.3  son  de  regresion  lineal;  es  decir,  son  modelos  lineales  en  los  parametros. 

Ahora  consideremos  el  modelo  E(Y  \  Xj)  —  Pi  +  P^Xj.  Supongamos  tambien  queX=  3;  as! 
obtenemos  E(Y  |  X,)  —  Pi  +  3/lf,  que  es  no  lineal  respecto  del  parametro  /b.  El  anterior  es  un 
ejemplo  de  modelo  de  regresion  no  lineal  (en  el  parametro).  Analizaremos  dichos  modelos  en 
el  capitulo  14. 

De  las  dos  interpretaciones  de  linealidad,  la  linealidad  en  los  parametros  es  pertinente  para  el 
desarrollo  de  la  teoria  de  regresion  que  presentaremos  en  breve.  Por  consiguiente,  en  adelante,  el 
termino  regresion  “lineal  ”  siempre  significara  una  regresion  lineal  en  los  parametros;  los  P  (es 
decir,  los  parametros)  se  elevan  solo  a  la  primera  potencia.  Puede  o  no  ser  lineal  en  las  variables 
explicativas  X.  Esquematicamente  tenemos  la  tabla  2.3.  Asi,  E(Y  \  Xj)  —  Pi  +  /b X.  lineal  en  los 
parametros  igual  que  en  las  variables,  es  un  modelo  de  regresion  lineal  (MRL),  lo  mismo  que 
E(Y  |  Xj)  —  Pi  +  PiXj,  lineal  en  los  parametros  pero  no  lineal  en  la  variable X. 


6  Se  dice  que  una  funcion  Y  =  f(X)  es  lineal  en  X  si  X  aparece  elevado  a  una  potencia  o  indice  de  1  sola- 
mente  (es  decir,  se  excluyen  terminos  como  X2,  y  demas),  y  dicha  variable  no  esta  multiplicada  ni  divi- 
dida  por  alguna  otra  variable  (por  ejemplo,  X  ■  Z  o  X/Z,  donde  Z  es  otra  variable).  Si  Y  solo  depende  de  X, 
otra  forma  de  plantear  que  Y  se  relaciona  linealmente  con  X  es  que  la  tasa  de  cambio  de  Y  respecto  de  X  (es 
decir,  la  pendiente,  o  la  derivada,  de  Y  respecto  de  X,  dY/dX )  es  independiente  del  valor  de  X.  Asf,  si  Y  =  4X, 
dY/dX  =  4,  valor  independiente  del  valor  de  X.  Pero  si  Y  =  4X2,  dY/dX  =  8X,  termino  que  no  es  indepen¬ 
diente  del  valor  tornado  por  X.  Por  consiguiente,  la  funcion  no  es  lineal  en  X. 

7  Se  dice  que  una  funcion  es  lineal  en  el  parametro,  digamos  p-\,  si  Pi  aparece  elevado  a  una  potencia  de  1 
solamente  y  no  esta  multiplicado  ni  dividido  por  ningun  otro  parametro  (por  ejemplo,  P1P2,  P2IP1,  etce¬ 
tera). 
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FIGURA  2.3 

Funciones  lineales  en  los 
parametros. 


Y 


Y 


Y  =  p]  +  p2X  +  piX2  +  p4X 3 
- X 


TABLA  2.3 

^Modelo  lineal  en  los  parametros? 

^Modelo  lineal  en 

las  variables? 

Modelos  de  regresion 

Si 

No 

lineal 

Si 

MRL 

MRL 

No 

MRNL 

MRNL 

Nota:  MRL  =  modelo  de  regresion  lineal 
MRNL  =  modelo  de  regresion  no  lineal 


2.4  Especificacion  estocastica  de  la  FRP 


En  la  figura  2.1  es  claro  que,  a  medida  que  aumenta  el  ingreso  familiar,  el  consumo  familiar,  en 
promedio,  tambien  aumenta.  Pero,  (',que  sucede  con  el  consumo  de  una  familia  en  relacion  con  su 
nivel  de  ingreso  (fijo)?  Es  obvio,  por  la  tabla  2.1  y  la  figura  2.1,  que  el  consumo  de  una  familia  en 
particular  no  necesariamente  aumenta  a  medida  que  lo  hace  el  nivel  de  ingreso.  Por  ejemplo, 
en  la  tabla  2.1  se  observa  que  en  el  nivel  de  ingreso  de  100  dolares  existe  una  familia  cuyo 
consumo,  de  65,  es  menor  que  el  consumo  de  dos  familias  cuyo  ingreso  semanal  es  solo  de  80 
dolares.  Sin  embargo,  hay  que  advertir  que  el  consumo  promedio  de  las  familias  con  ingreso 
semanal  de  100  es  mayor  que  el  consumo  promedio  de  las  familias  con  un  ingreso  semanal  de 
80  dolares  (77  y  65). 

Entonces,  (,q  Lie  se  puede  decir  sobre  la  relacion  entre  el  consumo  de  una  familia  y  un  nivel 
determinado  de  ingresos?  En  la  figura  2.1  se  ve  que,  con  el  nivel  de  ingresos  de  X„  el  consumo 
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de  una  familia  en  particular  se  agrupa  alrededor  del  consumo  promedio  de  todas  las  familias  en 
ese  nivel  deXt,  es  decir,  alrededor  de  su  esperanza  condicional.  Por  consiguiente,  expresamos  la 
desviacion  de  un  Y,  en  particular  alrededor  de  su  valor  esperado  de  la  manera  siguiente: 

ui  =  Yi-E{Y  \Xt) 
o 

Yi=E(Y\Xi)  +  Ui  (2.4.1) 

donde  la  desviacion  u,  es  una  variable  aleatoria  no  observable  que  adopta  valores  positivos  o 
negativos.  Tecnicamente,  u,  se  conoce  como  perturbacion  estocastica  o  termino  de  error  es- 
tocastico. 

(;C6mo  se  interpreta  la  ecuacion  (2.4.1)?  Se  puede  decir  que  el  gasto  de  una  familia  en  par¬ 
ticular,  segun  su  nivel  de  ingreso,  se  expresa  como  la  suma  de  dos  componentes:  1 )  E(Y  \  X,),  que 
es  simplemente  la  media  del  consumo  de  todas  las  familias  con  el  mismo  nivel  de  ingreso.  Este 
componente  se  conoce  como  componente  sistematico,  o  determinista,  y  2)  u,  que  es  el  compo- 
nente  aleatorio,  o  no  sistematico.  Examinaremos  en  breve  la  naturaleza  del  termino  de  perturba¬ 
cion  estocastica,  pero  por  el  momenta  supondremos  que  es  un  termino  que  sustituye  o  representa 
a  todas  las  variables  omitidas  o  ignoradas  que  puedan  afectar  a  Y  pero  que  no  se  incluyen  (o  no 
pueden  incluirse)  en  el  modelo  de  regresion. 

Si  suponemos  que  E{Y  \  X \)  es  lineal  en  Xt,  como  en  (2.2.2),  la  ecuacion  (2.4.1)  se  escribe 
como 

Y  =  E(Y  I  Xi)  +  Ui 

=  Pi  +  hXi  +  Ui  (2.4.2) 

La  ecuacion  (2.4.2)  plantea  que  el  consumo  de  una  familia  se  relaciona  linealmente  con  su  in¬ 
greso  mas  el  termino  de  perturbacion.  Asi,  el  consumo  individual,  con  A  =  80  (ver  la  tabla  2.1), 
se  expresa  como 


Y\  —  55  —  P\  +  A>(80)  +  u  i 
Y2  —  60  =  /Si  +  /32(80)  +  112 

Y3  =  65  =  fa  +  ft(80)  +  u3  (2.4.B) 

Y4  —  70  —  P\  +  ^2(80)  +  u\ 

Y$  =  15  =  fi\+  >S2(  80)  +  1<5 

Ahora,  si  tomamos  el  valor  esperado  de  (2.4.1)  en  ambos  lados,  obtenemos 

E(Yi  |  Xt)  =  E[E(Y  |  Xt)]  +  E{m  \  X,) 

=  E(Y  |  Xt)  +  E(Ui  |  Xf)  (2.4.4) 

donde  se  aprovecha  que  el  valor  esperado  de  una  constante  sea  la  constante  misma.8  Observe 
con  atencion  que  en  la  ecuacion  (2.4.4)  se  tomo  la  esperanza  condicional,  condicionada  a  las  X 
dadas. 

Como  E{Yj  |  Xi)  es  lo  mismo  que  E(Y  \  Xi),  la  ecuacion  (2.4.4)  implica  que 

E(u,  |  Xi)  =  0  (2.4.5) 


8  Ver  en  el  apendice  A  un  breve  analisis  de  las  propiedades  del  operador  de  esperanza  E.  Observe  que 
E{Y  \  X,),  una  vez  fijo  el  valor  de  X„  es  una  constante. 
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Asi,  el  supuesto  de  que  la  llnea  de  regresion  pasa  a  traves  de  las  medias  condicionales  de  Y  (ver 
la  figura  2.2)  implica  que  los  valores  de  la  media  condicional  de  u,  (condicionados  al  valor  dado 
deX)  son  cero. 

De  la  exposition  anterior  es  claro  que  (2.2.2)  y  (2.4.2)  son  formas  equivalentes  si  E(ui  \  X,)  = 
0.9  Pero  la  especificacion  estocastica  (2.4.2)  tiene  la  ventaja  que  muestra  claramente  otras  varia¬ 
bles,  ademas  del  ingreso,  que  afectan  el  consumo,  y  que  el  consumo  de  una  familia  no  se  explica 
en  su  totalidad  solo  por  la(s)  variable(s)  en  el  modelo  de  regresion. 


2.5 


Importancia  del  termino  de  perturbacion  estocastica 


Como  anotamos  en  la  seccion  2.4,  el  termino  de  perturbacion  u,  es  un  sustituto  de  todas  las  varia¬ 
bles  que  se  omiten  en  el  modelo,  pero  que,  en  conjunto,  afectan  a  Y.  La  pregunta  obvia  es:  <,por 
que  no  se  introducen  explicitamente  estas  variables  en  el  modelo?  O  de  otra  forma,  6por  que  no 
se  crea  un  modelo  de  regresion  multiple  con  tantas  variables  como  sea  posible?  Las  razones  son 
muchas. 

1 .  Vaguedad  de  la  teoria:  De  existir  una  teoria  que  determine  el  comportamiento  de  Y,  podria 
estar  incompleta,  y  con  frecuencia  lo  esta.  Se  tendria  quiza  la  certeza  de  que  el  ingreso  semanal  X 
afecta  el  consumo  semanal  Y,  pero  tambien  ignorariamos,  o  no  tendriamos  la  seguridad,  sobre  las 
demas  variables  que  afectan  a  Y.  Por  consiguiente,  u,  sirve  como  sustituto  de  todas  las  variables 
excluidas  u  omitidas  del  modelo. 

2.  Falta  de  disponibilidad  de  datos:  Aunque  se  conozcan  algunas  variables  excluidas  y  se 
considerara  por  tanto  una  regresion  multiple  en  lugar  de  una  simple,  tal  vez  no  se  cuente  con  in¬ 
formation  cuantitativa  sobre  esas  variables.  Es  comun  en  el  analisis  empirico  que  no  se  disponga 
de  los  datos  que  idealmente  se  desearia  tener.  Por  ejemplo,  en  principio  se  puede  introducir  la  ri- 
queza  familiar  como  variable  explicativa  adicional  a  la  variable  ingreso  para  explicar  el  consumo 
familiar.  Pero,  por  desgracia,  la  information  sobre  riqueza  familiar  por  lo  general  no  esta  dispo- 
nible.  Asi,  no  habria  mas  que  omitir  la  variable  riqueza  del  modelo  a  pesar  de  su  gran  relevancia 
teorica  para  explicar  el  consumo. 

3.  Variables  centrales  y  variables  perifericas:  Suponga  en  el  ejemplo  consumo-ingreso  que 
ademas  del  ingreso  X\  hay  otras  variables  que  afectan  tambien  el  consumo,  como  el  numero  de 
hijos  por  familia  X),  el  sexoX3,  la  religion  X4,  la  education  X5  y  la  region  geografica  X(].  Pero  es 
muy  posible  que  la  influencia  conjunta  de  todas  o  algunas  de  estas  variables  sea  muy  pequena,  o 
a  lo  mejor  no  sistematica  ni  aleatoria,  y  que  desde  el  punto  de  vista  practico  y  por  consideracio- 
nes  de  costo  no  se  justifique  su  introduction  explicita  en  el  modelo.  Cabria  esperar  que  su  efecto 
combinado  pueda  tratarse  como  una  variable  aleatoria  1 0 

4.  Aleatoriedad  intrlnseca  en  el  comportamiento  humano:  Aunque  se  logre  introducir  en  el 
modelo  todas  las  variables  pertinentes,  es  posible  que  se  presente  alguna  aleatoriedad  “intrin- 
seca”  en  Y  que  no  se  explique,  a  pesar  de  todos  los  esfuerzos  que  se  inviertan.  Las  perturbaciones, 
u,  pueden  reflejar  muy  bien  esta  aleatoriedad  intrinseca. 

5.  Variables  representantes  (proxy)  inadecuadas:  A  pesar  de  que  el  modelo  clasico  de  regre¬ 
sion  (que  veremos  en  el  capitulo  3)  supone  que  las  variables  Y  y  X  se  miden  con  precision,  en  la 
practica,  los  datos  pueden  estar  plagados  de  errores  de  medicion.  Consideremos,  por  ejemplo, 


9  En  efecto,  en  el  metodo  de  mfnimos  cuadrados  que  veremos  en  el  capftulo  3  se  supone  explfcitamente  que 
E(u,  |  X,)  =  0.  Ver  la  seccion  3.2. 

10  Otra  dificultad  es  que  no  es  facil  cuantificar  variables  como  sexo,  educacion  y  religion. 
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la  famosa  teoria  de  la  funcion  de  consumo  postulada  por  Milton  Friedman.11  El  considera  el 
consumo pennanente  ( Yp)  como  funcion  del  ingreso permanente  (Xp).  Pero  como  la  informacion 
sobre  estas  variables  no  es  observable  directamente,  en  la  practica  se  utilizan  variables  repre- 
sentantes  (proxy),  como  el  consumo  actual  (Y )  y  el  ingreso  actual  ( X ),  que  si  son  observables. 
Como  las  Y  y  las  X  observadas  pueden  no  ser  iguales  aFy  Xp,  existe  el  problema  de  errores 
de  medicion.  El  termino  de  perturbacion  u  en  este  caso  puede  representar  tambien  los  errores  de 
medicion.  Como  veremos  en  un  capitulo  posterior,  de  existir  tales  errores  de  medicion,  pueden 
tener  graves  repercusiones  en  la  estimacion  de  los  coeficientes  de  regresion,  ft. 

6.  Principio  de  parsimonia:  De  acuerdo  con  el  principio  de  la  navaja  de  Occam,12  conviene 
mantener  el  modelo  de  regresion  lo  mas  sencillo  posible.  Si  se  explica  “sustancialmente”  el  com- 
portamiento  de  Y  con  dos  o  tres  variables  explicativas,  y  si  la  teoria  no  es  bastante  fuerte  para  in¬ 
dicar  otras  variables  que  pueden  incluirse,  (',para  que  introducir  mas  variables?  Que  u,  represente 
todas  las  demas  variables.  Por  supuesto,  no  se  deben  excluir  variables  pertinentes  e  importantes 
solo  para  que  el  modelo  de  regresion  no  se  complique. 

7.  Forma  funcional  incorrecta:  Aunque  se  cuente  con  variables  teoricamente  correctas  para 
explicar  un  fenomeno  y  se  obtengan  datos  sobre  ellas,  con  frecuencia  no  se  conoce  la  forma  de 
la  relacion  funcional  entre  la  variable  regresada  y  las  regresoras.  <,Es  el  consumo  una  funcion 
lineal  (invariable)  del  ingreso,  o  es  una  funcion  no  lineal  (invariable)?  Si  se  trata  de  lo  primero, 
Yj  —  Pi  +  fiiXi  +  Ui  es  la  relacion  funcional  adecuada  entre  Y  y  X,  pero  en  el  segundo  caso,  Yt  = 

+  foX,  +  foX}  +  Ui  puede  ser  la  forma  funcional  correcta.  En  los  modelos  con  dos  varia¬ 
bles,  la  forma  funcional  de  la  relacion  a  menudo  se  puede  inferir  del  diagrama  de  dispersion.  Sin 
embargo,  en  un  modelo  de  regresion  multiple  no  es  facil  determinar  la  forma  funcional  apropiada, 
pues  los  diagramas  de  dispersion  no  se  visualizan  graficamente  en  multiples  dimensiones. 

Por  todas  estas  razones,  las  perturbaciones  estocasticas  u,  asumen  un  papel  muy  valioso  en  el 
analisis  de  regresion,  que  apreciaremos  a  medida  que  avancemos. 


2.6  Funcion  de  regresion  muestral  (FRM) 


Hasta  el  momenta,  nos  hemos  limitado  a  la  poblacion  de  valores  Y  que  corresponden  a  valores 
fijos  de  X  Con  toda  deliberacion  evitamos  consideraciones  muestrales  (observe  que  los  datos  de 
la  tabla  2.1  representan  la  poblacion,  no  una  muestra).  No  obstante,  es  momento  de  enfrentar  los 
problemas  muestrales,  porque  en  la  practica  lo  que  se  tiene  al  alcance  no  es  mas  que  una  muestra 
de  valores  de  Y que  corresponden  a  algunos  valores  fijos  de  X.  Por  tanto,  la  labor  ahora  es  estimar 
la  FRP  con  base  en  informacion  muestral. 

A  manera  de  ilustracion,  supongamos  que  no  se  conocia  la  poblacion  de  la  tabla  2.1  y  que  la 
unica  informacion  que  se  tenia  era  una  muestra  de  valores  de  Y  seleccionada  al  azar  para  valores 
dados  de  X como  se  presentan  en  la  tabla  2.4.  A  diferencia  de  la  tabla  2.1,  ahora  se  tiene  solo  un 
valor  de  Y correspondiente  a  los  valores  dados  deX;  cada  Y (dada  X,)  en  la  tabla  2.4  se  selecciona 
aleatoriamente  de  las  Y  similares  que  corresponden  a  la  misma  Xt  de  la  poblacion  de  la  tabla 
2.1. 


11  Milton  Friedman,  A  Theory  of  the  Consumption  Function,  Princeton  University  Press,  Princeton,  Nueva  Jer¬ 
sey,  1 957. 

12  "That  descriptions  be  kept  as  simple  as  possible  until  proved  inadequate",  The  World  of  Mathematics,  vol.  2, 
J.R.  Newman  (ed),  Simon  &  Schuster,  Nueva  York,  1 956,  p.  1 247,  o  "Entities  should  not  be  multiplied 
beyond  necessity",  Donald  F.  Morrison,  Applied  Linear  Statistical  Methods,  Prentice  Hall,  Englewood  Cliffs, 
Nueva  Jersey,  1 983,  p.  58. 
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La  cuestion  es  la  siguiente:  con  base  en  la  muestra  de  la  tabla  2.4,  ^es  posible  predecir  el 
consumo  semanal  promedio  Y  de  la  poblacion  en  su  conjunto  correspondiente  a  los  valores  de  X 
seleccionados?  En  otras  palabras,  (',se  puede  estimar  la  FRP  a  partir  de  los  datos  de  la  muestra? 
Como  el  lector  con  seguridad  sospecha,  quiza  no  pueda  calcularse  la  FRP  con  “precision”  debido 
a  las  fluctuaciones  muestrales.  Para  ver  esto,  supongamos  que  se  toma  otra  muestra  aleatoria  de 
la  poblacion  de  la  tabla  2.1,  la  cual  se  presenta  en  la  tabla  2.5. 

A1  graficar  los  datos  de  las  tablas  2.4  y  2.5  se  obtiene  el  diagrama  de  dispersion  de  la  figura 
2.4.  En  el  diagrama  de  dispersion  se  trazaron  dos  lineas  de  regresion  muestral  con  el  fin  de 
“ajustar”  razonablemente  bien  las  dispersiones:  FRMi  se  basa  en  la  primera  muestra  y  FRJVL  en 
la  segunda.  pCual  de  las  dos  lineas  de  regresion  representa  a  la  linea  de  regresion  poblacional 
“verdadera”?  Si  evitamos  la  tentacion  de  mirar  la  figura  2.1,  que  a  proposito  representa  la  RP, 
no  hay  forma  de  estar  por  complete  seguro  de  que  alguna  de  las  lineas  de  regresion  de  la  figura 
2.4  representa  la  verdadera  recta  (o  curva)  de  regresion  poblacional.  Las  lineas  de  regresion  en 


TABLA  2.4  TABLA  2.5 

Muestra  aleatoria  de  la  Otra  muestra  aleatoria  de  la 

poblacion  de  la  tabla  2.1  poblacion  de  la  tabla  2.1 


Y 

X 

Y 

X 

70 

80 

55 

80 

65 

100 

88 

100 

90 

120 

90 

120 

95 

140 

80 

140 

110 

160 

118 

160 

115 

180 

120 

180 

120 

200 

145 

200 

140 

220 

135 

220 

155 

240 

145 

240 

150 

260 

175 

260 

FIGURA  2.4 

Lineas  de  regresion  ba- 
sadas  en  dos  muestras 
diferentes. 


Ingreso  semanal,  $ 
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la  figura  2.4  se  conocen  como  lineas  de  regresion  muestral.  Se  supone  que  representan  la  linea 
de  regresion  poblacional,  pero,  debido  a  fluctuaciones  muestrales,  son,  en  el  mejor  de  los  casos, 
solo  una  aproximacion  de  la  verdadera  RP.  En  general,  se  obtendrian  N  FRM  diferentes  para  N 
muestras  diferentes,  y  estas  FRM  no  por  fuerza  son  iguales. 

Ahora,  igual  que  la  FRP  en  la  cual  se  basa  la  linea  de  regresion  poblacional,  se  desarrolla  el 
concepto  de  funcion  de  regresion  muestral  (FRM)  para  representar  la  linea  de  regresion  mues¬ 
tral.  La  contraparte  muestral  de  la  ecuacion  (2.2.2)  puede  escribirse  como 

%=Pi+hXi  (2.6.1) 


donde  Y  se  lee  “Y  sombrero”  o  “Y gorra” 

Yj  =  estimador  de  E(Y  |  Xt) 

Pi  —  estimador  de 
P2  —  estimador  de 

Advierta  que  un  estimador,  conocido  tambien  como  estadistico  (muestral),  no  es  mas  que 
una  regia,  formula  o  metodo  para  estimar  el  parametro  poblacional  a  partir  de  la  information 
suministrada  por  la  muestra  disponible.  Un  valor  numerico  particular  obtenido  por  el  estimador 
en  un  analisis  se  conoce  como  estimation.13  Cabe  senalar  que  un  estimador  es  aleatorio,  pero 
una  estimacion  no.  (<',Por  que?) 

Ahora,  tal  como  la  FRP  se  expresa  en  dos  formas  equivalentes,  (2.2.2)  y  (2.4.2),  la  FRM 
(2.6.1)  se  expresa  en  su  forma  estocastica  de  la  siguiente  manera: 

Yi  =  A  +  foXt  +  u,  (2.6.2) 

donde,  ademas  de  los  simbolos  ya  definidos,  u,  denota  el  termino  residual  (muestral).  Concep- 
tualmente,  u,  es  analogo  a  u,  y  se  considera  una  estimacion  de  u,,  que  se  introduce  en  la  FRM  por 
las  mismas  razones  que  se  introdujo  u,  en  la  FRP. 

Asi,  para  resumir,  concluimos  que  el  objetivo  principal  del  analisis  de  regresion  es  estimar  la 
FRP 


Yi  =  £1  +  faXi  +  ut  (2.4.2) 

con  base  en  la  FRM 

Yi  —  Pi  +  ySx,  +  Uj  (2.6.2) 

porque  son  mas  frecuentes  los  casos  en  que  el  analisis  se  basa  en  una  sola  muestra  tomada  de 
una  poblacion.  Pero,  debido  a  fluctuaciones  muestrales,  la  estimacion  de  la  FRP  basada  en  la 
FRM  es,  en  el  mejor  de  los  casos,  una  aproximacion.  En  la  figura  2.5  se  presenta  graficamente 
esta  aproximacion. 


1 3  Como  mencionamos  en  la  Introduccion,  un  sombrero  sobre  una  variable  significa  un  estimador  del  valor 
poblacional  pertinente. 
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FIGURA  2.5 

Lineas  de  regresion  mues- 
tral  y  poblacional. 


Ingreso  semanal,  $ 


Para  X  —  Xi  se  tiene  una  observation  (muestral),  Y  —  Y,.  En  terminos  de  la  FRM,  la  Y,  obser- 
vada  se  expresa  como 


Y,  -  %  +  Ui 


(2.6.3) 


y  en  terminos  de  la  FRP,  como 


Yi  =  E(Y  |  X{)  =  Ui 


(2.6.4) 


Ahora,  como  es  evidente,  en  la  figura  2.5,  7,  sobrestima  la  verdadera  E(Y  \  Xt )  para  la  A,  que  ahl 
se  muestra.  De  la  misma  manera,  para  cualquier  A„  a  la  izquierda  del  punto  A,  la  FRM  subesti- 
mara  la  verdadera  FRR  Pero  el  lector  puede  concluir  facilmente  que  tal  sobrestimacion  y  subes- 
timacion  es  inevitable  debido  a  las  fluctuaciones  muestrales. 

La  pregunta  critica  es  ahora:  como  la  FRM  es  apenas  una  aproximacion  de  la  FRP,  (',se  puede 
disenar  una  regia  o  metodo  que  “acerque”  esta  aproximacion  lo  mas  posible?  En  otras  palabras, 
pcomo  se  debe  construir  la  FRM  para  que  fl\  y  esten  tan  “cerca”  de  los  verdaderos  y 
como  sea  posible,  aunque  nunca  se  lleguen  a  conocer  los  verdaderos  fi\  y  fhj 

La  respuesta  ocupara  gran  parte  del  capltulo  3.  Se  advierte  aqui  que  es  posible  formular  pro- 
cedimientos  para  que  la  FRM  refleje  la  FRP  tan  fielmente  como  sea  posible.  Es  fascinante  consi- 
derar  esto  aunque  en  realidad  nunca  se  llegue  a  determinar  la  propia  FRP. 


2.7  Ejemplos  ilustrativos 


Este  capitulo  concluye  con  dos  ejemplos. 


46  Parte  Uno  Modelos  de  regresion  uniecuacionales 


EJEMPLO  2.1 

Salario  promedio 
por  hora  segun  la 
escolaridad 


La  tabla  2.6  proporciona  datos  sobre  el  nivel  de  estudios  (medido  en  anos  de  escolaridad),  el 
salario  promedio  por  hora  devengado  por  las  personas  por  nivel  de  escolaridad  y  el  numero  de 
personas  en  un  nivel  de  estudios.  Ernst  Berndt  obtuvo  originalmente  los  datos  de  la  tabla  de  la 
encuesta  de  poblacion  de  mayo  de  1985. 14 

Al  trazar  el  salario  promedio  (condicional)  en  funcion  del  grado  de  escolaridad,  se  obtiene  la 
grafica  de  la  figura  2.6.  La  curva  de  regresion  de  la  grafica  muestra  la  variation  de  los  salarios 
promedio  de  acuerdo  con  el  grado  de  escolaridad;  por  lo  general,  aquellos  se  incrementan  a  la 
par  que  el  grado  de  escolaridad,  conclusion  que  no  debe  causar  sorpresa.  En  un  capftulo  poste¬ 
rior  examinaremos  la  influencia  de  otras  variables  en  el  salario  promedio. 


TABLA  2.6 

Anos  de 

Salario 

Numero  de 

Salario  promedio 
por  hora  segun  la 

escolaridad 

promedio,  $ 

personas 

escolaridad 

6 

4.4567 

3 

7 

5.7700 

5 

Fuente:  Arthur  S.  Goldberger, 

8 

5.9787 

15 

Introductory  Econometrics, 

9 

7.3317 

12 

Harvard  University  Press, 

Cambridge,  Massachusetts, 

10 

7.3182 

17 

1998,  tabla  1.1,  p.  5  (adaptada). 

11 

6.5844 

27 

12 

7.8182 

218 

13 

7.8351 

37 

14 

11.0223 

56 

15 

10.6738 

13 

16 

10.8361 

70 

17 

13.6150 

24 

18 

13.5310 

31 

Total  528 

FIGURA  2.6 

Relation  entre  salario 
promedio  y  escolaridad. 


14  Ernst  R.  Berndt,  The  Practice  of  Econometrics:  Classic  and  Contemporary,  Addison  Wesley,  Reading,  Mas¬ 
sachusetts,  1 991 .  Por  cierto,  es  un  excelente  libro  que  el  lector  tal  vez  quiera  leer  para  averiguar  como  inves- 
tigan  los  econometristas. 
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EJEMPLO  2.2 

Calificaciones  de 
matematicas  en  el 
examen  SAT  segun 
ingreso  familiar 


FIGURA  2.7 

Relacion  entre  la  cali¬ 
ficacion  promedio  de 
matematicas  en  el  exa¬ 
men  SAT  y  el  ingreso 
familiar  promedio. 


En  la  tabla  2.10  del  ejercicio  2.1  7  hay  datos  sobre  el  promedio  de  calificaciones  del  examen  de 
aptitud  academica  (SAT,  Scholastic  Aptitude  Test)  de  lectura  crftica,  matematicas  y  redaccion 
de  947  347  estudiantes  que  solicitaron  su  admision  a  licenciatura  en  2007.  Se  represento  grafi- 
camente  la  calificacion  promedio  de  matematicas  en  funcion  del  ingreso  familiar  promedio  para 
obtener  la  ilustracion  de  la  figura  2.7. 

Nota:  En  virtud  de  los  intervalos  abiertos  de  ingreso  para  la  primera  y  ultima  categorfas  de  la 
tabla  2.10,  se  supone  que  el  ingreso  promedio  familiar  mas  bajo  es  de  5  000  dolares,  y  el  mas 
alto,  de  1 50  000  dolares. 


Como  muestra  la  figura  2.7,  la  calificacion  promedio  de  matematicas  aumenta  conforme  lo 
hace  el  ingreso  familiar.  Como  el  numero  de  estudiantes  que  presentaron  el  examen  SAT  es  muy 
grande,  es  probable  que  represente  a  toda  la  poblacion  de  estudiantes  que  presentaron  el  exa¬ 
men.  Por  tanto,  tambien  es  probable  que  la  llnea  de  regresion  trazada  en  la  figura  2.7  represente 
la  Ifnea  de  regresion  poblacional. 

Puede  haber  varias  razones  para  la  relacion  positiva  entre  ambas  variables.  Por  ejemplo,  se 
puede  argumentar  que  los  estudiantes  con  un  mayor  ingreso  familiar  estan  en  mejores  condicio- 
nes  de  costear  clases  privadas  para  el  examen.  Ademas,  es  mas  probable  que  los  estudiantes  de 
mayores  ingresos  tengan  padres  con  educacion  superior.  Tambien  es  posible  que  los  estudiantes 
con  calificaciones  mas  altas  de  matematicas  procedan  de  mejores  escuelas.  A  usted  se  le  pueden 
ocurrir  otras  explicaciones  de  la  relacion  positiva  entre  las  dos  variables. 
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Resumen  y 
conclusiones 


EJERCICIOS 


1 .  El  concepto  fundamental  del  analisis  de  regresion  es  el  de  funcion  de  esperanza  condicional 
(FEC),  o  funcion  de  regresion  poblacional  (FRP).  El  objetivo  del  analisis  de  regresion  es 
averiguar  la  forma  en  que  varla  el  valor  promedio  de  la  variable  dependiente  (o  regresada)  de 
acuerdo  con  el  valor  dado  de  la  variable  explicativa  (o  regresora). 

2.  Este  libro  trata  sobre  todo  de  FRP  lineales,  es  decir,  regresiones  lineales  en  los  parametros. 
Estas  pueden  ser  o  no  lineales  en  la  variable  regresada  o  las  regresoras. 

3.  Para  efectos  practicos,  la  FRP  estocastica  es  la  que  importa.  El  termino  de  perturbacion 
estocastica  u,  desempena  una  funcion  crucial  para  estimar  la  FRP. 

4.  La  FRP  es  un  concepto  idealizado,  pues  en  la  practica  pocas  veces  se  tiene  acceso  al  total  de 
la  poblacion  de  interes.  Por  lo  general  se  cuenta  solo  con  una  muestra  de  observaciones  de  la 
poblacion.  En  consecuencia,  se  utiliza  la  funcion  de  regresion  muestral  estocastica  (FRM) 
para  estimar  la  FRP;  la  forma  de  lograrlo  se  analiza  en  el  capitulo  3. 


Preguntas 

2.1.  /.Cual  es  la  funcion  de  esperanza  condicional  o  funcion  de  regresion  poblacional? 

2.2.  ('.Cual  es  la  diferencia  entre  la  funcion  de  regresion  poblacional  y  la  funcion  de  regresion 
muestral?  /.Se  trata  de  distintos  nombres  para  la  misma  funcion? 

2.3.  ^Que  papel  desempena  el  termino  de  error  estocastico  u,  en  el  analisis  de  regresion?  (',Cual 
es  la  diferencia  entre  el  termino  de  error  estocastico  y  el  residual  uf! 

2.4.  /.Por  que  es  necesario  el  analisis  de  regresion?  (',Por  que  no  tan  solo  utilizar  el  valor  medio 
de  la  variable  regresada  como  su  mejor  valor? 

2.5.  <i,Que  se  quiere  dar  a  entender  con  modelo  de  regresion  lineal ? 

2.6.  Determine  si  los  siguientes  modelos  son  lineales  en  los  parametros,  en  las  variables  o  en 
ambos.  (',Cuales  de  estos  modelos  son  de  regresion  lineal? 


Modelo 

°)  Yi  =  P\  +  Pi  +  Ui 

b )  Yj  =  pi  +  p 2  In  X,  +  u, 

c)  In  Yj  =  Pi  +  p2Xi  +  ui 

d)  In  Yj  =  In  Pi  +  p2  In  X,  +  u, 

e)  In  Yj  =  Pi  -  p2  (  ,  j  +  ut 


Titulo  descriptivo 

Reclproco 

Semilogarltmico 
Semilogarltmico  inverso 
Logarftmico  o  doble  logarltmico 

Logarltmico  reclproco 


Nota:  In  =  logaritmo  natural  (es  decir,  logaritmo  base  e);  w,  es  el  termino  de  perturbacion  estocastica.  Estudiaremos  estos 
modelos  en  el  capitulo  6. 


2.7.  (',Son  modelos  de  regresion  lineal  los  siguientes?  ^Por  que? 

a)  Yj  —  ePi+hx>+Ui 


’  |  +faXi+ui 

c)  In  Yj  —  Pi  +  p2  (  -  j  +  Ui 

d)  Yj  =  Pi  +  (0.75  -  Pi)e~Mx‘~2)  +  m 

e)  Yi  —  Pi  +  PjXj  +  Uj 
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2.8.  /.Que  se  entiende  por  un  modelo  de  regresion  intrinsecamente  lineal ?  Si  en  el  ejercicio 
2.1  d)  f>2  valiera  0.8,  /.seria  un  modelo  de  regresion  lineal  o  no  lineal? 

2.9.  Considere  los  siguientes  modelos  no  estocasticos  (es  decir,  modelos  sin  el  termino  de  error 
estocastico).  /.Son  lineales  estos  modelos  de  regresion?  De  no  serlo,  /.seria  posible,  con 
manipulaciones  algebraicas  apropiadas,  convertirlos  en  modelos  lineales? 

1 

Pi  +  fhXi 


Pi  +  PiXi 

1 

1  +  exp  {~P\  -  p2Xj ) 

2.10.  Considere  el  diagrama  de  dispersion  de  la  figura  2.8  junto  con  la  linea  de  regresion.  /.Quc 
conclusion  general  deduce  de  este  diagrama?  /.La  linea  de  regresion  del  diagrama  es  una 
linea  de  regresion  poblacional  o  una  linea  de  regresion  muestral? 

2.11.  Del  diagrama  de  dispersion  de  la  figura  2.9,  /.que  conclusiones  generales  deduce?  /.En  que 
teoria  economica  se  basa  este  diagrama  de  dispersion?  ( Pista :  busque  cualquier  libro  de 
texto  de  economia  internacional  y  estudie  el  modelo  de  comercio  Heckscher-Ohlin). 

2.12.  /.Que  revela  el  diagrama  de  dispersion  de  la  figura  2.10?  Con  base  en  dicho  diagrama,  /.se 
puede  decir  que  las  leyes  del  salario  minimo  propician  el  bienestar  economico? 

2.13.  /.La  linea  de  regresion  de  la  figura  1.3,  en  la  Introduction,  es  la  FRP  o  la  FRM?  /.Por  que? 
/.Como  se  interpretarian  los  puntos  alrededor  de  la  linea  de  regresion?  Ademas  del  P1B, 
/.que  otros  factores,  o  variables,  determinarian  el  consumo  personal? 


a) 

b) 

c) 


FIGURA  2.8 

Tasas  de  crecimiento  de 
los  salarios  y  exporta- 
ciones  reales  del  sector 
manufacturero.  Los  datos 
corresponden  a  50  palses 
en  vlas  de  desarrollo  du¬ 
rante  1970-1990. 

Fuente:  Banco  Mundial,  World 
Development  Report  1995,  p.  55. 
Las  fiientes  originales  son  datos 
de  ONUDI  y  del  Banco  Mundial. 
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♦  Asia  Oriental  y  el  Pacifico 

♦  Sur  de  Asia 

♦  America  Latina  y  el  Caribe 

♦  Africa  subsahariana 

♦  Medio  Oriente  y  Norte  de  Africa 
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FIGURA  2.9 

Intensidad  de  la  capacidad 
en  las  exportaciones  y  do¬ 
tation  de  capital  humano. 
Los  datos  corresponden  a 
126  palses  industrializa- 
dos  y  en  vlas  de  desarrollo 
en  1985.  Los  valores  tra- 
zados  en  el  eje  horizontal 
son  logaritmos  de  la  razon 
entre  la  escolaridad  pro- 
medio  alcanzada  en  cada 
pals  y  la  superficie  de 
tierra  cultivable  del  pals; 
los  valores  del  eje  vertical 
son  logaritmos  de  la  razon 
entre  las  exportaciones  de 
productos  manufacturados 
y  productos  basicos. 

Fuente:  Banco  Mundial,  World 
Development  Report  1995, 
p.  59.  Fuentes  originates: 
datos  de  exportation  de  la 
Oficina  de  Estadistica  de  las 
Naciones  Unidas,  base  de  datos 
COMTRADE;  datos  sobre 
education  del  Programa  de 
las  Naciones  Unidas  para  el 
Desarrollo  (PNUD),  1990;  datos 
sobre  el  uso  de  la  tierra  del  Banco 
Mundial. 


Tierra  abundante;  trabajadores  Tierra  escasa;  trabajadores 

menos  capacitados  mas  capacitados 

Promedios  regionales:  ♦  America  Latina  y  el  Caribe 

♦  Asia  Oriental  y  el  Pacifico  ♦  Sur  de  Asia 

♦  Economias  de  mercado  industrials  ♦  Africa  subsahariana 


FIGURA  2.10 

Salario  mlnimo  y  PIB  per 
capita.  La  muestra  consta 
de  17  palses  en  vlas  de  de¬ 
sarrollo.  Los  anos  varlan 
porpals  de  1988  a  1992. 
Los  datos  se  dan  en  pre- 
cios  internacionales. 

Fuente:  Banco  Mundial,  World 
Development  Report  1995,  p.  75. 


Razon  entre  el  salario  minirno  de 
un  ano  y  el  PIB  per  capita 


Ejercicios  empfricos 

2.14.  Se  proporcionan  los  datos  de  la  tabla  2.7  correspondientes  a  Estados  Unidos  de  1980  a 
2006. 

a )  Grafique  la  tasa  de  participation  de  la  fuerza  laboral  civil  masculina  en  funcion  de  la 
tasa  de  desempleo  civil  para  los  hombres.  Trace  a  mano  una  linea  de  regresion  a  traves 


Capftulo  2  Analisis  de  regresion  con  dos  variables:  algunas  ideas  basicas  5 1 


TABLA  2.7 

Datos  sobre  la 

Ano 

TPFLCM1 

TPFLCF2 

TDCH3 

TDCM4 

IPH825 

IPH6 

participacion  de  la 
fuerza  laboral  de 

1980 

77.40000 

51.50000 

6.900000 

7.400000 

7.990000 

6.840000 

1981 

77.00000 

52.10000 

7.400000 

7.900000 

7.880000 

7.430000 

Estados  Unidos  en  1980- 

1982 

76.60000 

52.60000 

9.900000 

9.400000 

7.860000 

7.860000 

2006 

1983 

76.40000 

52.90000 

9.900000 

9.200000 

7.950000 

8.190000 

1984 

76.40000 

53.60000 

7.400000 

7.600000 

7.950000 

8.480000 

Fuente:  Economic  Report  of  the 

1985 

76.30000 

54.50000 

7.000000 

7.400000 

7.910000 

8.730000 

President,  2007. 

1986 

76.30000 

55.30000 

6.900000 

7.100000 

7.960000 

8.920000 

1987 

76.20000 

56.00000 

6.200000 

6.200000 

7.860000 

9.130000 

1988 

76.20000 

56.60000 

5.500000 

5.600000 

7.810000 

9.430000 

1989 

76.40000 

57.40000 

5.200000 

5.400000 

7.750000 

9.800000 

1990 

76.40000 

57.50000 

5.700000 

5.500000 

7.660000 

10.190000 

1991 

75.80000 

57.40000 

7.200000 

6.400000 

7.580000 

10.500000 

1992 

75.80000 

57.80000 

7.900000 

7.000000 

7.550000 

10.760000 

1993 

75.40000 

57.90000 

7.200000 

6.600000 

7.520000 

11.030000 

1994 

75.10000 

58.80000 

6.200000 

6.000000 

7.530000 

11.320000 

1995 

75.00000 

58.90000 

5.600000 

5.600000 

7.530000 

1 1 .640000 

1996 

74.90000 

59.30000 

5.400000 

5.400000 

7.570000 

12.030000 

1997 

75.00000 

59.80000 

4.900000 

5.000000 

7.680000 

12.490000 

1998 

74.90000 

59.80000 

4.400000 

4.600000 

7.890000 

13.000000 

1999 

74.70000 

60.00000 

4.100000 

4.300000 

8.000000 

13.470000 

2000 

74.80000 

59.90000 

3.900000 

4.100000 

8.030000 

14.000000 

2001 

74.40000 

59.80000 

4.800000 

4.700000 

8.110000 

14.530000 

2002 

74.10000 

59.60000 

5.900000 

5.600000 

8.240000 

14.950000 

2003 

73.50000 

59.50000 

6.300000 

5.700000 

8.270000 

15.350000 

2004 

73.30000 

59.20000 

5.600000 

5.400000 

8.230000 

15.670000 

2005 

73.30000 

59.30000 

5.100000 

5.100000 

8.170000 

16.110000 

2006 

73.50000 

59.40000 

4.600000 

4.600000 

8.230000 

16.730000 

Las  siguientes  menciones  se  refieren  al  documento  original. 

1 TPFLCM  =  Tasa  de  participacion  de  la  fuerza  laboral  civil  masculina  (%),  tabla  B-39,  p.  277. 

2  TPFLCF  —  Tasa  de  participacion  de  la  fuerza  laboral  civil  femenina  (%),  tabla  B-39.  p.  277. 

3  TDCPl  =  Tasa  de  desempleo  civil,  hombres  (%),  tabla  B-42,  p.  280. 

4  TDCM  =  Tasa  de  desempleo  civil,  mujeres  (%),  tabla  B-42,  p.  280. 

5 1PP182  =  Ingresos  promedio  por  hora  (dolares  de  1982),  tabla  B-47,  p.  286. 

6  IPPl  =  Ingresos  promedio  por  hora  (dolares  actuates),  tabla  B-47,  p.  286. 


de  los  puntos  de  dispersion.  Mencione  a  priori  la  relacion  esperada  entre  ambas  tasas  y 
comente  cual  es  la  teoria  economica  que  sirve  de  fundamento.  <',Este  diagrama  de  dis¬ 
persion  apoya  dicha  teoria? 

b)  Repita  el  inciso  a)  para  las  mujeres. 

c)  Ahora  grafique  las  tasas  de  participacion  laboral  de  ambos  sexos  en  funcion  de  los 
ingresos  promedio  por  hora  (en  dolares  de  1982).  (Quiza  convenga  utilizar  diagramas 
independientes.)  Ahora,  ^que  concluye?  ^Como  racionalizaria  esa  conclusion? 

d)  (,Se  puede  trazar  la  tasa  de  participacion  de  la  fuerza  laboral  en  funcion  de  la  tasa  de 
desempleo  y  de  los  ingresos  promedio  por  hora,  de  manera  simultanea?  Si  no  fuera  asi, 
,(c6mo  expresaria  verbalmente  la  relacion  entre  esas  tres  variables? 

2.15.  En  la  tabla  2.8  se  proporcionan  los  datos  sobre  gasto  en  comida  y  gasto  total  (en  rupias) 
para  una  muestra  de  55  familias  rurales  de  India.  (A  principios  de  2000,  un  dolar  estado- 
unidense  equivalia  a  casi  40  rupias  indias.) 

a)  Grafique  los  datos  con  el  eje  vertical  para  el  gasto  en  comida  y  el  eje  horizontal  para  el 
gasto  total;  trace  una  linea  de  regresion  a  traves  de  los  puntos  de  dispersion. 

b )  ;Quc  conclusiones  generates  se  pueden  deducir  de  este  ejemplo? 
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TAB  LA  2.8  Gasto  total  y  en  comida  (rupias) 


Gasto  en 

Gasto 

Gasto  en 

Gasto 

Observacion 

comida 

total 

Observacion 

comida 

total 

1 

217.0000 

382.0000 

29 

390.0000 

655.0000 

2 

196.0000 

388.0000 

30 

385.0000 

662.0000 

3 

303.0000 

391.0000 

31 

470.0000 

663.0000 

4 

270.0000 

415.0000 

32 

322.0000 

677.0000 

5 

325.0000 

456.0000 

33 

540.0000 

680.0000 

6 

260.0000 

460.0000 

34 

433.0000 

690.0000 

7 

300.0000 

472.0000 

35 

295.0000 

695.0000 

8 

325.0000 

478.0000 

36 

340.0000 

695.0000 

9 

336.0000 

494.0000 

37 

500.0000 

695.0000 

10 

345.0000 

516.0000 

38 

450.0000 

720.0000 

11 

325.0000 

525.0000 

39 

415.0000 

721.0000 

12 

362.0000 

554.0000 

40 

540.0000 

730.0000 

13 

315.0000 

575.0000 

41 

360.0000 

731.0000 

14 

355.0000 

579.0000 

42 

450.0000 

733.0000 

15 

325.0000 

585.0000 

43 

395.0000 

745.0000 

16 

370.0000 

586.0000 

44 

430.0000 

751.0000 

17 

390.0000 

590.0000 

45 

332.0000 

752.0000 

18 

420.0000 

608.0000 

46 

397.0000 

752.0000 

19 

410.0000 

610.0000 

47 

446.0000 

769.0000 

20 

383.0000 

616.0000 

48 

480.0000 

773.0000 

21 

315.0000 

618.0000 

49 

352.0000 

773.0000 

22 

267.0000 

623.0000 

50 

410.0000 

775.0000 

23 

420.0000 

627.0000 

51 

380.0000 

785.0000 

24 

300.0000 

630.0000 

52 

610.0000 

788.0000 

25 

410.0000 

635.0000 

53 

530.0000 

790.0000 

26 

220.0000 

640.0000 

54 

360.0000 

795.0000 

27 

403.0000 

648.0000 

55 

305.0000 

801.0000 

28 

350.0000 

650.0000 

Fuente:  Chandan  Mukherjee,  Howard  White  y  Marc  Wuyts,  Econometrics  and  Data  Analysis  for  Developing  Countries,  Routledge,  Nueva  York,  1998,  p.  457. 


c)  Diga  a  priori  si  se  esperaria  que  el  gasto  en  comida  se  incrementara  de  manera  lineal 
conforme  el  gasto  total  aumentase,  independientemente  del  nivel  de  gasto.  <,Por  que? 
Puede  emplear  el  gasto  total  como  representante  del  ingreso  total. 

2.16.  La  tabla  2.9  presenta  datos  sobre  el  promedio  de  calificaciones  del  examen  de  aptitud 
academica  SAT  de  los  estudiantes  que  solicitaron  admision  a  licenciatura  de  1972  a  2007. 
Estos  datos  representan  las  calificaciones  en  el  examen  de  lectura  critica  y  matematicas  de 
hombres  y  mujeres.  La  categoria  de  redaction  se  introdujo  en  2006.  Por  tanto,  estos  datos 
no  se  incluyen. 

a)  Con  el  eje  horizontal  para  los  anos  y  el  vertical  para  las  calificaciones  del  examen  SAT, 
grafique  las  calificaciones  de  lectura  critica  y  matematicas  de  hombres  y  mujeres  por 
separado. 

b)  (',Quc  conclusiones  generales  se  obtienen? 

c)  A1  conocer  las  calificaciones  de  lectura  critica  de  hombres  y  mujeres,  (',c6mo  haria  para 
predecir  las  calificaciones  de  matematicas? 

d )  Grafique  las  calificaciones  de  matematicas  de  las  mujeres  contra  las  calificaciones  de 
matematicas  de  los  hombres.  ;Que  observa? 
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TAB  LA  2.9 

Promedio  grupal  total 
de  las  calificaciones  del 
examen  de  razonamiento 
SAT:  estudiantes  que 
solicitaron  ingreso  a 
licenciatura,  1972-2007 

Fuente:  College  Board,  2007. 


Lectura  critica 

Matematicas 

Ano 

Hombres 

Mujeres 

Total 

Hombres 

Mujeres 

Total 

1972 

531 

529 

530 

527 

489 

509 

1973 

523 

521 

523 

525 

489 

506 

1974 

524 

520 

521 

524 

488 

505 

1975 

515 

509 

512 

518 

479 

498 

1976 

511 

508 

509 

520 

475 

497 

1977 

509 

505 

507 

520 

474 

496 

1978 

511 

503 

507 

517 

474 

494 

1979 

509 

501 

505 

516 

473 

493 

1980 

506 

498 

502 

515 

473 

492 

1981 

508 

496 

502 

516 

473 

492 

1982 

509 

499 

504 

516 

473 

493 

1983 

508 

498 

503 

516 

474 

494 

1984 

511 

498 

504 

518 

478 

497 

1985 

514 

503 

509 

522 

480 

500 

1986 

515 

504 

509 

523 

479 

500 

1987 

512 

502 

507 

523 

481 

501 

1988 

512 

499 

505 

521 

483 

501 

1989 

510 

498 

504 

523 

482 

502 

1990 

505 

496 

500 

521 

483 

501 

1991 

503 

495 

499 

520 

482 

500 

1992 

504 

496 

500 

521 

484 

501 

1993 

504 

497 

500 

524 

484 

503 

1994 

501 

497 

499 

523 

487 

504 

1995 

505 

502 

504 

525 

490 

506 

1996 

507 

503 

505 

527 

492 

508 

1997 

507 

503 

505 

530 

494 

511 

1998 

509 

502 

505 

531 

496 

512 

1999 

509 

502 

505 

531 

495 

511 

2000 

507 

504 

505 

533 

498 

514 

2001 

509 

502 

506 

533 

498 

514 

2002 

507 

502 

504 

534 

500 

516 

2003 

512 

503 

507 

537 

503 

519 

2004 

512 

504 

508 

537 

501 

518 

2005 

513 

505 

508 

538 

504 

520 

2006 

505 

502 

503 

536 

502 

518 

2007 

504 

502 

502 

533 

499 

515 

Nota:  Para  1972-1986  se  aplico  una  formula  a  la  media  y  a  la  desviacion  estandar  originales  para  convertir  la  media  a  la  escala  re- 
centrada.  Para  1987-1995,  las  calificaciones  de  cada  estudiante  se  convirtieron  a  la  escala  recentrada  y  luego  se  volvio  a  calcular  la 
media.  De  1 996  a  1 999,  casi  todos  los  estudiantes  recibieron  calificaciones  segun  la  escala  recentrada.  Toda  calificacion  basada  en 
la  escala  original  se  convirtio  a  la  escala  recentrada  antes  de  calcular  la  media.  De  2000  a  2007,  todas  las  calificaciones  se  basaron 
en  la  escala  recentrada. 


2.17.  La  tabla  2.10  presenta  datos  sobre  las  calificaciones  del  examen  de  razonamiento  SAT  cla- 
sificadas  por  ingreso  para  tres  tipos  de  pruebas:  lectura  critica,  matematicas  y  redaccion. 
En  el  ejemplo  2.2  se  presento  la  figura  2.7,  que  contiene  una  grafica  de  la  media  de  las 
calificaciones  de  matematicas  en  funcion  del  ingreso  familiar  promedio. 
a )  Consulte  la  figura  2.7  y  prepare  una  grafica  parecida  que  relacione  el  promedio  de  cali¬ 
ficaciones  en  lectura  critica  con  el  ingreso  familiar  promedio.  Compare  sus  resultados 
con  los  de  la  figura  2.7. 
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TAB  LA  2.10 

Examen  de 
razonamiento  SAT 
clasificado  por  ingreso 
familiar 

Fuente:  College  Board,  2007, 
Estudiantes  que  solicitaron 
ingreso  a  licenciatura,  tabla  1 1 . 


Numero  de 
estudiantes  que 

Lectura  critica 

Matematicas 

Redaccion 

Ingreso 
familiar  ($) 

presentaron 
el  examen 

Media 

DE 

Media 

DE 

Media 

DE 

<10  000 

40  610 

427 

107 

451 

122 

423 

104 

10  000-20  000 

72  745 

453 

106 

472 

113 

446 

102 

20  000-30  000 

61  244 

454 

102 

465 

107 

444 

97 

30  000-40  000 

83  685 

476 

103 

485 

106 

466 

98 

40  000-50  000 

75  836 

489 

103 

486 

105 

477 

99 

50  000-60  000 

80  060 

497 

102 

504 

104 

486 

98 

60  000-70  000 

75  763 

504 

102 

511 

103 

493 

98 

70  000-80  000 

81  627 

508 

101 

516 

103 

498 

98 

80  000-100  000 

130  752 

520 

102 

529 

104 

510 

100 

>100  000 

245  025 

544 

105 

556 

107 

537 

103 

b )  Repita  el  inciso  a)  para  relacionar  el  promedio  de  calificaciones  de  redaccion  con  el 
ingreso  familiar  promedio,  y  compare  sus  resultados  con  los  de  las  otras  dos  graficas. 

c)  Examine  las  tres  graficas  y  mencione  que  conclusion  general  puede  obtener. 


Capitulo 


Modelo  de  regresion 
con  dos  variables: 
problema  de  estimacion 

Como  explicamos  en  el  capitulo  2,  la  primera  tarea  consiste  en  estimar  la  funcion  de  regresion 
poblacional  (FRP)  con  base  en  la  funcion  de  regresion  muestral  (FRM)  en  la  forma  mas  preci- 
sa  posible.  En  el  apendice  A  se  analizan  dos  metodos  de  estimacion  frecuentes:  1)  mmimos 
cuadrados  ordinarios  (MCO)  y  2)  maxima  verosimilitud  (MV).  El  metodo  de  MCO  es  el  mas 
comun  en  el  analisis  de  regresion,  sobre  todo  por  ser  mucho  mas  intuitivo  y  matematicamente 
mas  sencillo  que  el  metodo  de  maxima  verosimilitud.  Ademas,  como  veremos  mas  adelante,  en 
el  contexto  de  la  regresion  lineal,  por  lo  general  los  dos  metodos  proporcionan  resultados  simi- 
lares. 


3.1  Metodo  de  mmimos  cuadrados  ordinarios  (MCO) 


El  metodo  de  mmimos  cuadrados  ordinarios  se  atribuye  a  Carl  Friedrich  Gauss,  matematico 
aleman.  A  partir  de  ciertos  supuestos  (estudiados  en  la  seccion  3.2),  el  metodo  de  mmimos  cua¬ 
drados  presenta  propiedades  estadisticas  muy  atractivas  que  lo  han  convertido  en  uno  de  los  mas 
eficaces  y  populares  del  analisis  de  regresion.  Para  entenderlo,  primero  explicaremos  el  principio 
de  los  mmimos  cuadrados. 

Recuerde  la  FRP  de  dos  variables: 


Yi  =fa+  foXt  +  ut  (2.4.2) 

Sin  embargo,  como  mencionamos  en  el  capitulo  2,  la  FRP  no  es  observable  directamente.  Se 
calcula  a  partir  de  la  FRM: 


Yi  =  fa  +  p2X,  +  u,  (2.6.2) 

=  Yi  +  ut  (2.6.3) 


donde  Yl  es  el  valor  estimado  (media  condicional)  de  Y,. 

Pero,  /.como  se  determina  la  FRM?  Para  hacerlo,  se  procede  de  la  siguiente  forma.  Primero, 
se  expresa  la  ecuacion  (2.6.3)  como 


=  Yi  -  Yi 


=  Yi  -  /Si  -  /S2V, 


(3.1.1) 
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FIGURA  3.1 

Criterio  de  minimos  cua- 
drados. 


que  muestra  que  los  u,  (los  residuos)  son  simplemente  las  diferencias  entre  los  valores  observados 
y  los  estimados  de  Y. 

Ahora,  dados  n  pares  de  observaciones  de  Y  y  X,  nos  interesa  determinar  la  FRM  de  manera 
que  quede  lo  mas  cerca  posible  de  la  Y observada.  Con  este  fin,  se  adopta  el  siguiente  criterio:  se- 
leccionar  la  FRM  de  modo  que  la  suma  de  los  residuos  =  ]C(  Y,  —  Y, )  sea  la  menor  posible. 
Este  criterio,  aunque  es  intuitivamente  atractivo,  no  es  muy  bueno,  como  se  ve  en  el  diagrama  de 
dispersion  hipotetico  de  la  figura  3.1. 

Si  se  adopta  el  criterio  de  reducir  tq-,  la  figura  3.1  muestra  que  los  residuos  zq  y  M3,  al  igual 
que  los  residuos  u\  y  114,  reciben  el  mismo  peso  en  la  suma  ( zq  +  zq  +  zq  +  M4),  aunque  los  dos 
primeros  estan  mucho  mas  cerca  la  FRM  que  los  dos  ultimos.  En  otras  palabras,  a  todos  los  re¬ 
siduos  se  les  da  la  misma  importancia  sin  considerar  cuan  cerca  o  cuan  dispersas  esten  las  ob¬ 
servaciones  individuales  de  la  FRM.  Debido  a  lo  anterior,  es  muy  posible  que  la  suma  algebraica 
de  las  M,  sea  pequena  (aun  cero)  a  pesar  de  que  las  u,  esten  muy  dispersas  respecto  de  la  FRM. 
Para  verificar  lo  anterior,  zq,  zq,  zq  y  114  en  la  figura  3.1  asumiran  respectivamente  los  valores  de 
10,  —2,  +2  y  — 10.  La  suma  algebraica  de  estos  residuos  es  cero  a  pesar  de  que  zq  y  U4  presentan 
una  mayor  dispersion  alrededor  de  FRM  que  zq  y  M3.  Se  evita  este  problema  con  el  criterio  de 
minimos  cuadrados,  el  cual  establece  que  la  FRM  se  determina  en  forma  tal  que 

£>?  =  £(* -ft)2 

_  „  .  2  (3-1.2) 

=  -P'~ 

sea  lo  mas  pequena  posible,  donde  m?  son  los  residuos  elevados  al  cuadrado.  Al  elevar  al  cuadrado 
z<„  este  metodo  da  mas  peso  a  los  residuos  como  zq  y  114  en  la  figura  3.1  que  a  los  residuos  zq  y 
zz3.  Como  ya  anotamos,  con  el  criterio  de  zq  minima,  la  suma  puede  ser  pequena  a  pesar  de  que 
los  zq  esten  muy  dispersos  alrededor  de  la  FRM.  La  situacion  anterior  no  se  presenta  con  el  pro- 
cedimiento  de  minimos  cuadrados,  pues,  entre  mayor  sea  zq  (en  valor  absoluto),  mayor  sera  u], 
Otra  justificacion  del  metodo  de  minimos  cuadrados  es  que  los  estimadores  obtenidos  con  este 
metodo  tienen  algunas  propiedades  estadisticas  muy  deseables,  como  veremos  en  breve. 
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TABLA  3.1 

Determination  experi¬ 
mental  de  la  FRM 


Yi 

xt 

h, 

wi/ 

Of) 

Y2i 

i»2i 

"2i 

(1) 

(2) 

(3) 

(4) 

(5) 

(6) 

(7) 

(8) 

4 

1 

2.929 

1.071 

1.147 

4 

0 

0 

5 

4 

7.000 

-2.000 

4.000 

7 

-2 

4 

7 

5 

8.357 

-1.357 

1.841 

8 

-1 

1 

12 

6 

9.714 

2.286 

5.226 

9 

3 

9 

Suma:  28 

16 

0.0 

12.214 

0 

14 

Notas:  Yu  =  1.572  +  1.357JT,  (es  decir,  ft  =  1.572  y  ft  =  1.357) 
V2i  =  3.0  +  1.0AT,  (es  decir,  ft  =  3  y  ft  =  1.0) 

Si t=(Yt-  ft,) 

U2i  =  (Yi-Yd 


A  partir  de  la  ecuacion  (3.1.2)  es  evidente  que 

(3.1.3) 

es  decir,  la  suma  de  los  residuos  elevados  al  cuadrado  es  algun  tipo  de  funcion  de  los  estimadores 
fti  y  $2-  Por  cada  conjunto  dado  de  datos  con  diferentes  valores  para  ft]  y  ft 2 ,  se  obtendra  como 
resultado  u  diferentes  y,  por  consiguiente,  valores  diferentes  de  J2  Para  ver  esto  claramente, 
consideremos  las  cifras  hipoteticas  de  Yy  de X de  las  primeras  dos  columnas  de  la  tabla  3.1.  Rea- 
licemos  ahora  dos  experimentos.  En  el  experimento  1,  sea  fJ>\  —  1.572  y  ft>2  —  1.357  (por  ahora  no 
preocupa  la  forma  como  se  obtuvieron  estos  valores;  es  decir,  se  trata  solo  de  conjeturas).1  Con 
estos  valores  ft  y  los  valores  de  X dados  en  la  columna  (2)  de  la  tabla  3.1,  se  calcula  facilmente 
la  Yj  estimada  dada  en  la  columna  (3)  de  la  tabla  y  denotada  Yu  (el  subindice  1  indica  el  primer 
experimento).  Ahora  realicemos  otro  experimento,  pero  esta  vez  con  los  valores  de  ft\  —  3  y 
j02  =  I  -  Los  valores  estimados  de  Y,  a  partir  de  este  experimento  estan  dados  por  Y2i  en  la  columna 
(6)  de  la  tabla  3.1.  Como  los  valores  de  ft  en  los  dos  experimentos  son  diferentes,  se  obtienen 
tambien  valores  diferentes  para  los  residuos  estimados,  como  aparece  en  la  tabla;  u\,  correspon- 
den  a  los  del  primer  experimento  y  u2i  corresponden  a  los  del  segundo.  Los  cuadrados  de  estos 
residuos  estan  dados  en  las  columnas  (5)  y  (8).  Como  es  logico,  segun  se  esperaba  de  la  ecuacion 
(3.1.3),  estas  sumas  de  residuos  al  cuadrado  son  diferentes,  pues  se  basan  en  conjuntos  diferentes 
de  valores  de  ft . 

Ahora,  (',que  conjuntos  de  ft  se  deben  escoger?  Como  los  valores  de  ft  del  primer  experimento 
dan  una  ^  u]  (—  12.214)  inferior  a  la  que  se  obtiene  con  los  valores  de  ft  del  segundo  experi¬ 
mento  (=  14),  se  puede  decir  que  las  ft  estimadas  del  primer  experimento  son  los  “mejores”  va¬ 
lores.  Pero,  icomo  saberlo?:  si  se  tuviera  tiempo  y  paciencia  infinitos,  se  podrian  realizar  muchos 
mas  experimentos  de  este  tipo,  escogiendo  cada  vez  diferentes  conjuntos  de  ft  y  comparando  las 
J2  u]  resultantes,  y  luego  escogiendo  el  conjunto  de  valores  de  ft  que  diera  el  menor  valor  posible 
de  J2  m?,  y  suponiendo,  desde  luego,  que  se  consideraron  todos  los  valores  posibles  de  fti  y  ft  2- 
Pero  como  el  tiempo  y,  sin  duda,  la  paciencia  suelen  ser  escasos,  se  necesitan  considerar  algunos 
atajos  ante  este  proceso  de  ensayo  y  error.  Por  fortuna,  el  metodo  de  minimos  cuadrados  ofrece 
un  atajo.  El  principio  o  metodo  de  minimos  cuadrados  elige  ft\  y  ft>2  de  manera  que,  para  una 
muestra  o  conjunto  de  datos  determinados,  J2  es  L  mas  pcqucna  posible.  En  otras  palabras, 
para  una  muestra  dada,  proporciona  valores  estimados  unicos  de  ft]  y  ft:  que  producen  el  valor 
mas  pequeno  o  reducido  posible  de  J2  (',C6mo  es  esto  posible?  Se  trata  de  un  ejercicio  sencillo 


1  Para  los  curiosos,  estos  valores  se  obtienen  por  el  metodo  de  minimos  cuadrados,  que  explicaremos  en 
breve.  Veanse  las  ecuaciones  (3.1 .6)  y  (3.1 .7). 
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de  calculo  diferencial.  Como  se  observa  en  el  apendice  3 A,  seccion  3 A.  1 ,  el  proceso  de  diferen- 
ciacion  genera  las  siguientes  ecuaciones  para  estimar  y  fty. 


(3.1.4) 

(3.1.5) 

donde  n  es  el  tamano  de  la  muestra.  Estas  ecuaciones  simultaneas  se  conocen  como  ecuaciones 
normales. 

A1  resolver  las  ecuaciones  normales  al  mismo  tiempo,  obtenemos 


nY.XiYi-Y.XiT.Yi 
nYxf-iYXi)2 
T(Xi  -  X)(Yj  -  Y) 
T(xt  -  x)2 
Yxiyj 

Txf 


(3.1.6) 


donde  X  y  Y  son  las  medias  muestrales  de  A  y  X  y  donde  se  definen  x,  =  (A,-  —  X)  y 
y,  =  (Yj  —  Y).  De  aqui  en  adelante  adoptaremos  la  convencion  de  utilizar  letras  minusculas para 
representar  desviaciones  respecto  de  los  valores  medios. 


_  YxjYYi-YXiYXiY, 

nTX?-{YXif  (3.1.7) 

=  Y-  fi2X 


El  ultimo  paso  en  (3.1.7)  se  obtiene  directamente  de  la  ecuacion  (3.1.4)  mediante  manipulacion 
algebraica  simple. 

Por  cierto,  advierta  que,  con  identidades  algebraicas  simples,  la  formula  (3.1.6)  para  estimar 
P2  se  expresa  tambien  como 


$2  = 


Txtyj 

E*? 


E  x>Yi 

TXf-nX 2 


E  Xiyi 

E  X2  -  nX2 


(3.1. 8)2 


2  Nota  1  :Exf  =  E(xi  -  X)2  =  E  Xf  -  2  £  X/X  +  E  X2  =  E  ~  2*  E  X  +  E  X2,  pues  X  es  una  cons- 
tante.  Ademas,  aprecie  que,  como  J2  Xi  =  nX  yE  X2  =  rX2  porque  X  es  una  constante,  finalmente  obtene¬ 
mos  £  xf  =  E*f~  nX2- 

Nota  2:  £  x;  y,  =  £  xi(Yi  ~Y)  =  E  xi  Yi  ~YE  x>  =  E  xi  Y>  -  Y  E(xi  -  X)  =  "£  x,  V),  pues  Y  es  una  cons¬ 
tante  y  la  suma  de  las  desviaciones  de  una  variable  de  su  valor  medio  [por  ejemplo,  E(Xi  —  X)  siempre  es 
cero.  De  la  misma  manera,  £  y ■  =  E(Yi  —  Y)  =  0. 
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Los  estimadores  obtenidos  antes  se  conocen  como  estimadores  de  mmimos  cuadrados,  pues 
se  derivan  del  principio  de  mmimos  cuadrados.  Observe  las  siguientes  propiedades  numericas 
de  los  estimadores  obtenidos  con  el  metodo  de  MCO:  “Propiedades  numericas  son  las  que  se 
mantienen  como  consecuencia  del  uso  de  mmimos  cuadrados  ordinarios,  sin  considerar  la  forma 
como  se  generaron  los  datos”.3  En  breve  consideraremos  tambien  las  propiedades  estadisticas 
de  los  estimadores  MCO,  es  decir,  propiedades  “que  se  mantienen  solo  con  ciertos  supuestos 
sobre  la  forma  como  se  generaron  los  datos”.4  (Vease  el  modelo  clasico  de  regresion  lineal  en  la 
seccion  3.2.) 

I.  Los  estimadores  de  MCO  se  expresan  unicamente  en  terminos  de  las  cantidades  (es  decir,  X 
y  Y)  observables  (es  decir,  muestras).  Por  consiguiente,  se  calculan  on  facilidad. 

II.  Son  estimadores  puntuales:  dada  la  muestra,  cada  estimador  proporciona  un  solo  valor 
(puntual)  del  parametro  poblacional  pertinente.  (En  el  capitulo  5  consideraremos  los  estima¬ 
dores  por  intervalos,  que  proporcionan  un  intervalo  de  valores  posibles  para  los  parametros 
poblacionales  no  conocidos.) 

III.  Una  vez  obtenidos  los  estimadores  de  MCO  de  los  datos  de  la  muestra,  se  obtiene  sin  pro- 
blemas  la  linea  de  regresion  muestral  (figura  3. 1 ).  La  linea  de  regresion  asi  obtenida  tiene  las 
siguientes  propiedades: 

1.  Pasa  a  traves  de  las  medias  muestrales  de  YyX.  Esto  es  evidente  por  la  ecuacion  (3.1.7), 
pues  esta  ecuacion  puede  escribirse  Y  =  j$i  +  /L  X,  como  se  observa  graficamente  en  la 
figura  3.2. 


FIGURA  3.2 

Diagrama  que  muestra 
como  la  linea  de  regresion 
muestral  pasa  a  traves  de 
los  valores  de  las  medias 
muestrales  de  YyX. 


Y 


3  Russell  Davidson  y  James  G.  MacKinnon,  Estimation  and  Inference  in  Econometrics,  Oxford  University  Press, 
Nueva  York,  1993,  p.  3. 

4  Ibid. 
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2.  El  valor  medio  de  Y  estimada  =  Yl  es  igual  al  valor  medio  de  Y real  para 

%=  Pi  +  PiX, 

=  (Y  -  p2X)  +  p2Xi  (3.1.9) 

=  Y  +  fax,  -  X) 

Al  sumar  ambos  lados  de  esta  ultima  igualdad  sobre  los  valores  muestrales  y  dividir  por 
el  tamano  n  de  la  muestra,  obtenemos: 

Y=Y  (3.1.10)5 

donde  se  aprovecha  que  ^(X,  —  X)  =  0.  (,',Por  que?) 

3.  El  valor  medio  de  los  residuos  u\  es  cero.  Del  apendice  3 A,  seccion  3A.1,  la  primera 
ecuacion  es 


-lYfYi  -  fa  -  hXt)  =  0 

Pero,  como  u,  —  Yl  —  P\  —  pi  X,,  la  ecuacion  anterior  se  reduce  a  —2  )T  u,  —  0,  y  sc 
tiene  que  u  —  0.6 

Como  resultado  de  la  propiedad  anterior,  la  regresion  muestral 

Y  =  Pi  +  p2Xi  +  ut  (2.6.2) 


puede  definirse  de  una  forma  en  la  cual  Y  y  A  se  expresan  como  desviaciones  de  sus  me- 
dias.  Para  apreciar  lo  anterior,  sume  (2.6.2)  en  ambos  lados  para  obtener 


Y,Yi=nPi  +  P2Y,Xi  +  Y,“i 

—  nfi\  +  p2  ^2  Xi  donde  ^  u,  —  0 
Al  dividir  la  ecuacion  (3.1.11)  entre  n,  obtenemos 

Y  =  Pi  +  P2X 


(3.1.11) 


(3.1.12) 


que  es  lo  mismo  que  (3.1.7).  Si  restamos  la  ecuacion  (3.1.12)  de  la  (2.6.2),  obtenemos 

Yi-Y  =  P2(X,  —  X)  +  u  i 


o 


yi  —  h  Xi  +  Ui 


(3.1.13) 


donde  y,  y  x„  de  acuerdo  con  lo  convenido,  representan  desviaciones  de  los  valores  res- 
pectivos  de  sus  medias  (muestrales). 


5  Se  debe  senalar  que  este  resultado  es  correcto  unicamente  cuando  el  modelo  de  regresion  incluye  el  ter- 
mino  del  intercepto  p-\.  Como  se  demuestra  en  el  apendice  6A,  seccion  6A.1,  cuando  fa  esta  ausente  del 
modelo,  este  resultado  no  se  da  necesariamente. 

6  Este  resultado  tambien  requiere  que  el  termino  del  intercepto  fa  este  presente  en  el  modelo  (vease  el 

apendice  6A,  seccion  6A.1). 
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La  ecuacion  (3.1.13)  se  conoce  como  forma  de  desviacion.  Observe  que  el  termino 
del  intercepto  P\  ha  desaparecido.  Pero  este  termino  siempre  podra  estimarse  mediante 
(3.1.7),  pues  la  llnea  de  regresion  muestral  pasa  a  traves  de  las  medias  muestrales  de  Yy 
X.  Una  ventaja  de  la  forma  de  desviacion  es  que  esta  simplifica  a  menudo  los  calculos  de 
las  formulas. 

Observe  de  paso  que,  en  la  forma  de  desviacion,  la  FRM  se  escribe  como 

9i  —  PiXi  (3.1.14) 

mientras  que  en  las  unidades  de  medicion  originales,  dicha  expresion  era  %  —  P\  +  p2Xj, 
como  en  (2.6.1). 

4.  Los  residuos  m,  no  estan  correlacionados  con  el  valor  pronosticado  de  Y„  lo  cual  se  verifica 
de  la  siguiente  manera:  con  la  forma  de  desviacion  se  escribe 

=  Pi  y.XiUi 
=  Pi  'yxiiyi  -  Pixi) 

=  PiJ^xm  -  p22J2x?  (3.1.15) 

= @2  J2x?  -  Pi  J2x? 

=  0 

donde  se  aprovecha  que  Pi  =  Y1  xiYi  /Hxf- 

5.  Los  residuos  u,  no  estan  correlacionados  con  X,.  es  decir,  J2  « ;  X,  —  0.  Esto  se  desprende 
de  la  ecuacion  (2)  en  el  apendice  3  A,  seccion  3A.1. 


3.2 


Modelo  clasico  de  regresion  lineal:  fundamentos 
del  metodo  de  mini  in  os  cuadrados 


Si  deseamos  estimar  solo  P\  y  /L,  basta  el  metodo  MCO  presentado  de  la  seccion  anterior.  Pero 
recuerde  del  capitulo  2  que  en  el  analisis  de  regresion  el  objetivo  es  no  solo  obtener  P\y  Pi,  sino 
tambien  inferir  los  verdaderos  P\  y  Pi,  por  ejemplo,  si  quisieramos  saber  cuan  cerca  estan  P\  y 
Pi  de  sus  contrapartes  en  la  poblacion,  o  cuan  cerca  esta  Y)  de  la  verdadera  E(  Y  \  X,).  Para  esto  no 
solo  se  debe  especificar  la  forma  funcional  del  modelo,  como  aparece  en  (2.4.2),  sino  tambien 
hacer  ciertos  supuestos  sobre  la  forma  como  se  genera  Y,.  Para  ver  por  que  es  necesario  este  re¬ 
quisite,  observemos  la  FRP:  Yt  —  P\  +  p2Xi  +  it,.  Esta  expresion  muestra  que  Y,  depende  de  A,  y 
de  itj.  Por  consiguiente,  mientras  no  se  especifique  la  forma  como  se  crean  o  se  gcncran  X,  y  ui,  no 
hay  manera  de  hacer  alguna  inferencia  estadistica  sobre  Y„  ni  tampoco,  como  veremos,  sobre  p\ 
y  Pi.  Asl,  los  supuestos  sobre  la(s)  variable(s)  X ]  y  el  termino  de  error  son  relevantes  para  lograr 
una  interpretacion  valida  de  los  valores  estimados  de  la  regresion. 

El  modelo  de  Gauss,  modelo  clasico  o  estandar  de  regresion  lineal  (MCRL),  es  el  cimiento 
de  la  mayor  parte  de  la  teorla  econometrica  y  plantea  siete  supuestos.7  Primero  los  estudiaremos  en 
el  contexto  del  modelo  de  regresion  con  dos  variables  y,  en  el  capitulo  7,  se  extenderan  a  los  mo- 
delos  de  regresion  multiple,  es  decir,  modelos  en  los  cuales  hay  mas  de  una  regresora. 


7  Es  un  modelo  clasico  en  el  sentido  de  que  Gauss  lo  empleo  por  primera  vez  en  1821  y  desde  entonces 
sirve  como  norma  o  patron  con  el  cual  comparar  los  modelos  de  regresion  que  no  satisfacen  los  supuestos 
gaussianos. 
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SUPUESTO  1  Modelo  de  regresion  lineal:  El  modelo  de  regresion  es  lineal  en  los  parametros,  aunque 

puede  o  no  ser  lineal  en  las  variables.  Es  decir,  el  modelo  de  regresion  como  se  muestra  en  la 
ecuacion  (2.4.2) 

Y,  =  fr  +  fi2  X,  +  u,  (2.4.2) 

Como  analizaremos  en  el  capftulo  7,  este  modelo  puede  extenderse  para  incluir  mas  variables 
explicativas. 


Ya  vimos  el  modelo  (2.4.2)  en  el  capltulo  2.  Como  los  modelos  de  regresion  lineal  en  los  para¬ 
metros  son  el  punto  de  partida  del  MCRL,  mantendremos  este  supuesto  a  lo  largo  del  libro.8  Re- 
cuerde  que  la  regresada  Y y  la  regresora  X pueden  no  ser  lineales,  como  vimos  en  el  capitulo  2. 


SUPUESTO  2  Valores  fijos  de  X,  o  valores  de  X  independientes  del  termino  de  error:  Los  valores 

que  toma  la  regresora  X  pueden  considerarse  fijos  en  muestras  repetidas  (el  caso  de  la  regresora 
fija),  o  haber  sido  muestreados  junto  con  la  variable  dependiente  Y (el  caso  de  la  regresora  esto- 
castica).  En  el  segundo  caso  se  supone  que  la(s)  variable(s)  X  y  el  termino  de  error  son  indepen¬ 
dientes,  esto  es,  co v(X,>  uj)  =  0. 


Esto  puede  explicarse  en  terminos  del  ejemplo  de  la  tabla  2.1  (pagina  35).  Consideremos  las 
diversas  poblaciones  de  Y  correspondientes  a  los  niveles  de  ingreso  en  esa  tabla.  A1  mantener  el 
valor  del  ingreso  X  fijo  al  nivel  de  80  dolares,  se  selecciona  al  azar  una  familia  y  se  observa  su 
consumo  semanal  Y,  60  dolares.  Mantengamos  X  en  80  y  seleccionamos  aleatoriamente  a  otra 
familia,  y  observamos  su  valor  Y de  75  dolares.  En  cada  una  de  estas  selecciones  (es  decir,  mues- 
treo  repetido),  el  valor  de  X esta  fijo  en  80.  Se  puede  repetir  este  proceso  para  todos  los  valores  de 
X  de  la  tabla  2.1.  De  hecho,  los  datos  muestrales  de  las  tablas  2.4  y  2.5  se  seleccionaron  asi. 

(',Por  que  suponemos  que  los  valores  de  X  son  no  estocasticos?  En  virtud  de  que  en  la  mayoria 
de  las  ciencias  sociales  los  datos  suelen  recopilarse  de  manera  aleatoria  para  las  variables  Y  v  X, 
parece  natural  suponer  lo  contrario:  que  la  variable  X,  lo  mismo  que  la  variable  Y,  es  aleatoria  o 
estocastica.  Sin  embargo,  al  principio  suponemos  que  las  variable(s)  X  son  no  estocasticas  por 
las  siguientes  razones: 

Primera,  al  principio,  esto  sirve  para  simplificar  el  analisis  e  introducir  poco  a  poco  al  lector 
a  las  complejidades  del  analisis  de  regresion.  Segunda,  en  situaciones  experimentales  tal  vez 
no  sea  irreal  suponer  que  los  valores  de  X  son  fijos.  Por  ejemplo,  un  agricultor  puede  dividir  su 
tierra  en  varias  parcelas  y  aplicarles  diferentes  cantidades  de  fertilizante  para  ver  el  efecto  en  el 
rendimiento  del  cultivo.  Asimismo,  una  tienda  de  departamentos  puede  ofrecer  diferentes  tasas 
de  descuento  en  un  producto  para  ver  su  efecto  en  los  consumidores.  En  ocasiones  conviene 
fijar  los  valores  de  X  para  un  proposito  especifico.  Supongamos  que  deseamos  obtener  el  in¬ 
greso  promedio  semanal  de  los  trabajadores  (Y)  con  varios  niveles  de  escolaridad  (X),  como  los 
datos  presentados  en  la  tabla  2.6.  En  este  caso,  la  variable  X  se  puede  considerar  fija  o  no  alea¬ 
toria.  Tercera,  como  se  muestra  en  el  capitulo  13,  aunque  las  variables  A  sean  estocasticas,  los 
resultados  estadisticos  de  la  regresion  lineal  basada  en  el  caso  de  las  regresoras  fijas  tambien 


8  Sin  embargo,  se  presenta  un  analisis  breve  de  los  modelos  de  regresion  no  lineales  en  los  parametros,  en  el 
capftulo  14,  en  beneficio  de  los  estudiantes  mas  avanzados. 
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son  validos  cuando  las  variables  X  son  aleatorias,  en  tanto  se  cumplan  algunas  condiciones;  una 
de  ellas  es  que  la  re  g  res  ora  X  y  el  termino  de  error  «,  sean  independientes.  Como  senala  James 
Davidson:  .  .este  modelo  [es  decir,  el  de  la  regresora  estocastica]  ‘imita’  al  modelo  de  regresora 
fija,  y  [...]  muchas  propiedades  estadlsticas  de  los  minimos  cuadrados  del  modelo  de  regreso¬ 
ra  fija  siguen  siendo  validos”.9 

Por  todas  estas  razones,  primero  analizaremos  con  detalle  el  MCRL  (regresora  fija).  Sin  em¬ 
bargo,  en  el  capltulo  13  veremos  el  caso  de  las  regresoras  estocasticas  en  cierto  detalle  y  sena- 
laremos  las  ocasiones  en  que  es  necesario  considerar  los  modelos  de  regresora  estocastica.  Por 
cierto,  anote  que  si  la  variable  X  es  estocastica,  el  modelo  resultante  se  llama  modelo  neoclasico 
de  regresion  lineal  (MNRL),10  en  contraste  con  el  MCRL,  donde  las  X  sc  tratan  como  variables 
fijas  o  no  aleatorias.  Para  efectos  de  analisis,  denominaremos  al  primero  modelo  de  regresora 
estocastica,  y  al  segundo,  modelo  de  regresora  fija. 


SUPUESTO  3 


El  valor  medio  de  la  perturbacion  w,  es  igual  a  cero:  Dado  el  valor  de  X„  la  media  o  el 
valor  esperado  del  termino  de  perturbacion  aleatoria  u,  es  cero.  Simbolicamente,  tenemos  que 

E(u,|X,)  =  0  (3.2.1) 

O,  si  X  no  es  estocastica, 


E(ui)  =  0 


El  supuesto  3  establece  que  el  valor  de  la  media  de  m„  que  depende  de  las  X,  dadas,  es  cero. 
Geometricamente,  este  supuesto  se  representa  mediante  una  grafica,  como  en  la  figura  3.3,  que 
muestra  algunos  valores  de  la  variable X  y  las  poblaciones  Y asociadas  a  cada  uno  de  ellos.  Puede 


FIGURA  3.3 

Distribution  condicional 
de  las  perturbaciones 


Y 


9  James  Davidson,  Econometric  Theory,  Blackwell,  Reino  Unido,  2000,  p.  10. 

,0Termino  acunado  por  Arthur  S.  Goldberger,  A  Course  in  Econometrics,  Harvard  University  Press,  Cambridge, 
Massachusetts,  1991,  p.  264. 
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observar  que  cada  poblacion  Y  correspondiente  a  un  X  dado  esta  distribuida  alrededor  de  su 
media  (que  se  representa  por  los  puntos  dentro  de  un  circulo  sobre  la  FRP),  con  algunos  valores 
de  Y por  encima  y  por  debajo  de  esta.  Las  distancias  por  encima  y  por  debajo  de  los  valores  me- 
dios  no  son  otra  cosa  que  la  iij.  La  ecuacion  (3.2.1)  requiere  que  el  promedio  o  valor  medio  de 
estas  desviaciones  correspondientes  a  cualquier  Adado  sea  cero. 

No  es  dificil  entender  este  supuesto  en  vista  de  lo  que  vimos  en  la  section  2.4  (vease  la  ecua¬ 
cion  2.4.5).  Lo  que  sostiene  el  supuesto  3  es  que  los  factores  no  incluidos  explicitamente  en  el 
modelo  y,  por  consiguiente,  incorporados  en  w„  no  afectan  sistematicamente  el  valor  de  la  media 
de  Y\  es  decir,  los  valores  positivos  de  u,  se  cancelan  con  los  valores  negativos  de  u„  de  manera 
que  el  efecto  medio  o  promedio  sobre  Y  es  cero.11 

Observe,  por  cierto,  que  el  supuesto  E(Uj\Xj)  —  0  implica  que  E(Y,\ X,)  =  /3\  +  fa  A).  (^Por 
que?)  Por  consiguiente,  los  dos  supuestos  son  equivalentes. 

Es  importante  senalar  que  el  supuesto  3  implica  que  no  hay  sesgo  de  especificacion  o  error 
de  especificacion  en  el  modelo  del  analisis  empirico.  En  otras  palabras,  el  modelo  de  regresion 
esta  especificado  correctamente.  Algunos  ejemplos  del  error  de  especificacion  serian  omitir  va¬ 
riables  explicativas  importantes,  incluso  las  variables  innecesarias,  o  elegir  una  forma  funcional 
equivocada  de  la  relation  entre  las  variables  Y y  X.  Veremos  este  tema  a  fondo  en  el  capitulo  13. 

Tambien  observe  que  si  la  media  condicional  de  una  variable  aleatoria,  dada  otra  variable  alea- 
toria,  es  cero,  la  covarianza  entre  las  dos  variables  es  cero  y,  por  tanto,  las  dos  variables  no  estan 
correlacionadas.  En  consecuencia,  el  supuesto  3  implica  que  X )  y  u,  no  estan  correlacionadas.12 

La  razon  para  suponer  que  el  termino  de  perturbacion  u  y  las  variables  explicativas  X  no  estan 
correlacionadas  es  sencilla.  Cuando  expresamos  la  FRP  en  la  ecuacion  (2.4.2),  supusimos  que  X 
y  u  (que  representa  la  influencia  de  todas  las  variables  omitidas)  ejercen  influences  independien- 
tes  (y  aditivas)  en  Y.  Pero  si  Ay  z/  estan  correlacionadas,  no  es  posible  evaluar  los  efectos  de  cada 
una  sobre  Y.  Asi,  si  Ay  w  tienen  correlacion  positiva,  A  aumenta  cuando  u  aumenta,  y  disminuye 
cuando  u  disminuye.  Asimismo,  si  Ay  it  tienen  correlacion  negativa,  A  se  incrementa  cuando  u 
se  reduce,  y  disminuye  cuando  u  aumenta.  En  estas  situaciones  es  muy  posible  que  el  termino  de 
error  incluya  en  realidad  algunas  variables  que  debieron  incluirse  como  regresoras  adicionales  en 
el  modelo.  Por  esta  razon,  el  supuesto  3  es  otra  forma  de  decir  que  no  hay  error  de  especificacion 
en  el  modelo  de  regresion  elegido. 


SUPUESTO  4 


Homoscedasticidad  0  varianza  constante  de  m,-:  La  varianza  del  termino  de  error,  o  de 
perturbacion,  es  la  misma  sin  importar  el  valor  de  X.  Simbolicamente,  tenemos  que 

var(ui)  =  E[ui-  £(u,| X,)]2 

=  E(uj\Xi),  por  el  supuesto  3 
=  E(uf),  si  X,  son  variables  no  estocasticas 

= (3.2.2) 


donde  var  significa  varianza. 


11  Para  una  explicacion  mas  tecnica  de  la  necesidad  del  supuesto  3,  vease  E.  Malinvaud,  Statistical  Methods 
of  Econometrics,  Rand  McNally,  Chicago,  1966,  p.  75.  Vease  tambien  el  ejercicio  3.3. 

12  Sin  embargo,  lo  contrario  no  es  valido  porque  la  correlacion  es  una  medida  solo  de  asociacion  lineal.  Es 
decir,  aunque  X,y  u,  no  esten  correlacionadas,  la  media  condicional  de  u;  dada  X,  puede  no  ser  cero.  No  obs¬ 
tante,  si  X,  y  Uj  estan  correlacionadas,  E(Uj\  X,)  debe  ser  un  numero  distinto  de  cero,  lo  que  viola  el  supuesto 
3.  Este  punto  se  debe  a  Stock  y  Watson.  Vease  James  H.  Stock  y  Mark  W.  Watson,  Introduction  to  Econome¬ 
trics,  Addison-Wesley,  Boston,  2003,  pp.  104-105. 
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La  ecuacion  (3.2.2)  establece  que  la  varianza  de  u{  para  cada  X\  (es  decir,  la  varianza  condi- 
cional  de  uf)  es  algun  numero  positivo  constante  igual  a  a2.  Tecnicamente,  la  ecuacion  (3.2.2) 
representa  el  supuesto  de  homoscedasticidad,  o  igual  (homo)  dispersion  (cedasticidad),  o  igual 
varianza.  La  palabra  proviene  del  verbo  griego  skedanime,  que  significa  dispersar  o  esparcir. 
Planteado  de  otra  forma,  (3.2.2)  significa  que  las  poblaciones  Y correspondientes  a  diversos  va- 
lores  de  X  tienen  la  misma  varianza.  En  terminos  llanos,  la  variacion  alrededor  de  la  linea  de 
regresion  (la  linea  de  la  relacion  promedio  entre  X  y  Y)  es  la  misma  para  todos  los  valores 
deX;  no  aumenta  ni  disminuye  conforme  varia  X.  En  el  diagrama  de  la  figura  3.4  se  aprecia  esta 
situacion. 

En  contraste,  consideremos  la  figura  3.5,  donde  la  varianza  condicional  de  la  poblacion  Y 
varia  con  X.  Esta  situacion  se  conoce  apropiadamente  como  heteroscedasticidad,  o  dispersion 
desigual,  o  varianza  desigual.  Simbolicamente,  en  esta  situacion,  la  ecuacion  (3.2.2)  se  escribe 
como 


var  {ui\Xj)  —  a]  (3.2.3) 

Observe  el  subindice  sobre  ct2  en  la  ecuacion  (3.2.3),  el  cual  indica  que  la  varianza  de  la  pobla¬ 
cion  Y  ya  no  es  constante. 


FIGURA  3.4 

Homoscedasticidad. 


fin) 


FIGURA  3.5 

Heteroscedasticidad. 


fiu) 
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SUPUESTO  S 


Para  diferenciar  claramente  las  dos  situaciones,  sea  Y  el  gasto  de  consumo  semanal  y  X  el  in- 
greso  semanal.  Las  figuras  3.4  y  3.5  muestran  que,  a  medida  que  el  ingreso  aumenta,  el  consumo 
promedio  tambien  aumenta.  Pero  en  la  figura  3.4  la  varianza  del  consumo  permanece  igual  para 
todos  los  niveles  de  ingreso,  mientras  que  en  la  figura  3.5  aumenta  con  incrementos  en  el  ingreso. 
En  otras  palabras,  en  promedio,  las  familias  mas  ricas  consumen  mas  que  las  familias  mas  po- 
bres,  pero  hay  tambien  mayor  variabilidad  en  el  consumo  que  en  las  primeras. 

Para  entender  el  fundamento  de  este  supuesto,  observe  la  figura  3.5.  Como  lo  muestra  esta 
figura,  var(i/|  X\ )  <  var(w|  Xj),  .  .  .  ,  <  var(w| X,).  Por  consiguiente,  lo  mas  probable  es  que  las  ob- 
servaciones  de  Y  que  provienen  de  la  poblacion  con  X  —  X\  estarian  mas  cercanas  a  la  FRP  que 
las  que  vienen  de  poblaciones  correspondientes  aX—  A3,  X  —  X3,  y  asi  sucesivamente.  En  resu- 
men,  no  todos  los  valores  de  Y  que  corresponden  a  las  diversas  X  seran  igualmente  confiables, 
si  juzgamos  la  confiabilidad  por  la  cercania  o  el  alejamiento  con  que  se  distribuyan  los  valores 
de  Y  alrededor  de  sus  medias,  es  decir,  los  puntos  sobre  la  FRP.  Si,  de  hecho,  este  es  el  caso,  £no 
seria  preferirible  obtener  muestras  de  las  poblaciones  Y  mas  cercanas  a  su  media  que  de  las  muy 
dispersas?  Sin  embargo,  actuar  asi  restringiria  la  variation  que  se  obtiene  mediante  los  valores 
deX. 

A1  invocar  el  supuesto  4,  se  sostiene  que  en  esta  etapa  todos  los  valores  de  Y  correspondientes 
a  diversos  valores  de  X  revisten  la  misma  importancia.  En  el  capitulo  1 1  veremos  lo  que  sucede 
cuando  se  presenta  heteroscedasticidad. 

Note  que  el  supuesto  4  implica  que  las  varianzas  condicionales  de  Yj  tambien  son  homosce- 
dasticas.  Es  decir, 


var  {Yj\Xj)  —  o2  (3.2.4) 

Por  supuesto,  la  varianza  incondicional  de  Y  es  a\-.  Mas  adelante  veremos  la  importancia  de 
distinguir  entre  varianza  condicional  e  incondicional  de  Y  (en  el  apendice  A  hay  detalles  de  va¬ 
rianzas  condicionales  e  incondicionales). 


No  hay  autocorrelacion  entre  las  perturbaciones:  Dados  dos  valores  cualesquiera  de  X, 
X,y  Xj  (/  A  /),  la  correlacion  entre  dos  u,y  Uj  cualesquiera  (/'A  /)  es  cero.  En  pocas  palabras,  estas 
observaciones  se  muestrean  de  manera  independiente.  Simbolicamente, 

cov (Ujf  Uj  X„  Xj)  =  0  (3.2.5) 

co v(u/,  uj)  =  0,  si  X  no  es  estocastica 

donde  /  y  j  son  dos  observaciones  diferentes  y  cov  significa  covarianza. 


En  palabras,  (3.2.5)  postula  que  las  perturbaciones  ut  y  uj  no  estan  correlacionadas.  Tecnica- 
mente,  este  es  el  supuesto  de  no  correlacion  serial,  o  no  autocorrelacion.  Esto  significa  que, 
dado  Xu  las  desviaciones  de  dos  valores  cualesquiera  de  Y  de  sus  valores  promedio  no  muestran 
patrones  como  los  de  la  figura  3.6a)  y  b ).  En  la  figura  3.6a)  se  ve  que  las  u  estan  correlacionadas 
positivamente,  pues  a  una  u  positiva  sigue  una  u  positiva,  o  a  una  11  negativa  sigue  una  u  negativa. 
En  la  figura  3.66),  las  u  estan  correlacionadas  negativamente,  pues  a  una  u  positiva  sigue  una  u 
negativa  y  viceversa. 

Si  las  perturbaciones  (desviaciones)  siguen  patrones  sistematicos,  como  los  que  de  las  figu¬ 
ras  3.6a)  y  b),  hay  correlacion  serial  o  autocorrelacion,  y  lo  que  requiere  el  supuesto  5  es  que 
dichas  correlaciones  esten  ausentes.  La  figura  3.6c)  muestra  que  no  hay  un  patron  sistematico 
para  las  u,  lo  que  indica  cero  correlacion. 
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FIGURA  3.6 

Patrones  de  correlation 
entre  las  perturbaciones: 
a)  correlation  serial  posi- 
tiva;  b)  correlation  serial 
negativa;  c)  correlation 
cero. 


+u.  +u. 

I  l 
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Explicaremos  con  amplitud  la  importancia  de  este  supuesto  en  el  capitulo  12.  No  obstante, 
mediante  la  intuition,  podemos  analizar  este  supuesto  de  la  siguiente  forma.  Supongamos  que  en 
la  FRP  ( Y,  —  +  /32X,  +  ut)  u,  y  ut-\  estan  correlacionadas  positivamente.  Entonces  Y,  depende 

no  solo  de  X,  sino  tambien  de  u,_  | ,  pues  i  determina  en  cierta  medida  a  ut.  En  esta  etapa  del 
desarrollo  de  la  materia,  al  invocar  el  supuesto  5,  se  afirma  que  se  considerara  el  efecto  sistema- 
tico,  si  existe,  de  X,  sobre  Yt,  sin  preocuparse  por  las  demas  influencias  que  podrian  actuar  sobre 
Y como  resultado  de  las  posibles  correlaciones  entre  las  u.  Pero,  como  se  anota  en  el  capitulo  12, 
veremos  como  incorporar  en  el  analisis  las  correlaciones  entre  las  perturbaciones,  y  sus  conse- 
cuencias. 

No  obstante,  debe  anadirse  aqui  que  la  justification  de  este  supuesto  depende  del  tipo  de 
datos  para  el  analisis.  Si  los  datos  son  transversales  y  se  obtienen  como  muestra  aleatoria 
de  la  poblacion  pertinente,  a  menudo  es  posible  justificar  este  supuesto.  Sin  embargo,  si  los  datos 
corresponden  a  una  serie  de  tiempo,  es  dificil  mantener  el  supuesto  de  independencia,  porque  las 
observaciones  sucesivas  de  una  serie  de  tiempo,  como  el  P1B,  estan  muy  correlacionadas.  Ana- 
lizaremos  esta  situacion  cuando  estudiemos  la  econometria  de  series  de  tiempo,  mas  adelante  en 
este  texto. 


SUPUESTO  6  El  niimero  de  observaciones  n  debe  ser  mayor  que  el  numero  de  parametros  por 

estimar:  Sucesivamente,  el  numero  de  observaciones  n  debe  ser  mayor  que  el  numero  de 
variables  explicativas. 
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Este  supuesto  no  es  tan  ingenuo  como  parece.  En  el  ejemplo  hipotetico  de  la  tabla  3.1,  imagi- 
nemos  que  solo  habla  el  primer  par  de  observaciones  sobre  Yy  X(4  y  1).  De  esta  sola  observation 
no  hay  forma  de  estimar  los  dos  parametros  desconocidos,  ft\  y  ft  2-  Se  necesitan  por  lo  menos 
dos  pares  de  observaciones  para  estimar  dichos  parametros.  En  un  capitulo  posterior  veremos  la 
importancia  critica  de  este  supuesto. 

SUPUESTO  7 

La  naturaleza  de  las  variables  X:  No  todos  los  valores  X  en  una  muestra  determinada 
deben  ser  iguales.  Tecnicamente,  var(X)  debe  ser  un  numero  positivo.  Ademas,  no  puede  haber 
valores  atipicos  de  la  variable  X,  es  decir,  valores  muy  grandes  en  relation  con  el  resto  de  las 
observaciones. 

El  supuesto  de  variabilidad  en  los  valores  de  X  tampoco  es  tan  ingenuo  como  parece.  Veamos 
la  ecuacion  (3.1 .6).  Si  todos  los  valores  de X son  identicos,  X,  —  X  ((;por  que?)  y  el  denominador 
de  esa  ecuacion  sera  cero,  lo  que  imposibilita  la  estimation  de  y,  por  consiguiente,  de  ft\. 
Por  intuition,  pronto  advertimos  la  razon  por  la  que  este  supuesto  es  importante.  Observe  el 
ejemplo  del  consumo  familiar  del  capitulo  2.  Si  hay  muy  poca  variacion  en  el  ingreso  familiar, 
no  sera  posible  explicar  buena  parte  de  la  variacion  en  el  consumo.  El  lector  debe  recordar  que  la 
variacion  tanto  en  Y  como  endfes  esencial  para  utilizar  el  analisis  de  regresion  como  herramienta 
de  investigation.  En  pocas  palabras,  jlas  variables  deben  variar! 

El  requisito  de  que  no  existan  valores  atipicos  de  X  es  para  evitar  que  los  resultados  de  la 
regresion  esten  dominados  por  tales  valores  atipicos.  Si  hay  algunos  valores  de  X que,  por  ejem¬ 
plo,  sean  20  veces  el  promedio  de  los  valores  de  X,  las  lineas  de  regresion  estimadas  con  o  sin 
dichas  observaciones  serian  muy  diferentes.  Con  mucha  frecuencia,  estos  valores  atipicos  son  el 
resultado  de  errores  humanos  de  aritmetica  o  de  mezclar  muestras  de  diferentes  poblaciones.  En 
el  capitulo  13  estudiaremos  a  fondo  este  tema. 

El  analisis  de  los  supuestos  en  los  que  se  basa  el  modelo  clasico  de  regresion  lineal  ha  finali- 
zado.  Es  importante  senalar  que  todos  estos  supuestos  solo  se  refieren  a  la  FRP  y  no  a  la  FRM. 
Sin  embargo,  es  interesante  observar  que  el  metodo  de  minimos  cuadrados  que  tratamos  antes 
tiene  algunas  propiedades  semejantes  a  los  supuestos  que  acabamos  de  plantear  sobre  la  FRP. 
Por  ejemplo,  la  conclusion  de  que  J]  u,  —  0  y,  por  tanto,  it  —  0,  es  semejante  al  supuesto  de 
que  E(Ui\Xi)  —  0.  Asimismo,  la  conclusion  de  que  u,X,  =  0  es  similar  al  supuesto  de  que 
co v(m„  Xj)  —  0.  Es  reconfortante  observar  que  el  metodo  de  minimos  cuadrados  trata  de  “dupli- 
car”  algunos  de  los  supuestos  impuestos  a  la  FRP. 

Desde  luego,  la  FRM  no  duplica  todos  los  supuestos  del  MCRL.  Como  mostraremos  mas 
adelante,  aunque  cov(w„  uft  =  0(i  /  j)  por  el  supuesto,  no  es  valido  que  la  covarianza  muestral 
co v(ij,  Uj)  —  0(1  /  j).  De  hecho,  habremos  de  demostrar  que  los  residuos  no  solo  estan  autoco- 
rrelacionados,  sino  que  tambien  son  heteroscedasticos  (vease  el  capitulo  12). 

Advertencia  sobre  estos  supuestos 

La  pregunta  del  millon  de  dolares  es:  <;son  realistas  todos  estos  supuestos?  La  “realidad  de  los 
supuestos”  se  cuestiona  desde  hace  muchos  anos  en  la  filosofia  de  las  ciencias.  Algunos  ar- 
gumentan  que  no  importa  si  los  supuestos  son  realistas,  sino  las  predicciones  basadas  en  esos 
supuestos.  Entre  quienes  apoyan  la  “tesis  de  la  irrelevancia  de  los  supuestos”  sobresale  Milton 
Friedman.  Para  el,  la  irrealidad  de  los  supuestos  es  una  ventaja  positiva:  “para  que  una  hipotesis 
sea  importante...  debe  ser  descriptivamente  falsa  en  sus  supuestos”.13 

Es  posible  coincidir  o  no  completamente  con  este  punto  de  vista,  pero  recuerde  que  en  cual- 
quier  estudio  cientifico  se  plantean  ciertos  supuestos  porque  facilitan  el  desarrollo  de  la  materia 
en  pasos  graduates,  no  porque  sean  necesariamente  realistas  en  el  sentido  de  que  reproduzcan  la 

13  Milton  Friedman,  Essays  in  Positive  Economics,  University  of  Chicago  Press,  Chicago,  1953,  p.  14. 
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realidad  exactamente.  Como  senala  un  autor,  si  la  simplicidad  es  un  criterio  deseable  de  una 
buena  teoria,  todas  las  buenas  teorias  idealizan  y  simplifican  de  manera  exagerada”.14 

El  plan  es  estudiar  primero  a  fondo  las  propiedades  del  MCRL  y,  luego,  en  capltulos  posterio- 
res,  examinar  a  profundidad  lo  que  sucede  si  no  se  cumple  uno  o  mas  de  los  supuestos  del  MCRL. 
A1  final  de  este  capitulo,  en  la  tabla  3.4,  se  ofrece  una  guia  para  enterarse  de  lo  que  sucede  al 
MCRL  si  no  se  satisface  un  supuesto  particular. 

Como  senalaba  un  colega,  al  revisar  investigaciones  ajenas,  es  necesario  considerar  si  los 
supuestos  del  investigador  son  apropiados  para  los  datos  y  para  el  problema.  Con  mucha  fre- 
cuencia,  la  investigacion  publicada  se  basa  en  supuestos  implicitos  sobre  el  problema  y  en  datos 
que  tal  vez  no  son  correctos  y  producen  estimaciones  basadas  en  esos  supuestos.  Desde  luego, 
el  lector  conocedor,  consciente  de  estos  problemas,  debe  adoptar  una  actitud  esceptica  hacia  la 
investigacion.  Los  supuestos  enumerados  en  la  tabla  3.4,  por  consiguiente,  constituyen  una  lista 
de  verification  para  guiar  la  investigacion  y  evaluar  las  investigaciones  ajenas. 

Con  esta  salvedad,  ahora  esta  listo  para  estudiar  el  MCRL.  En  particular,  se  desea  encontrar 
las  propiedades  estadisticas  de  MCO  comparadas  con  las  propiedades  numericas  puras  ex- 
puestas  antes.  Las  propiedades  estadisticas  de  MCO  se  basan  en  los  supuestos  del  MCRL  ya  es- 
tudiado,  y  estan  avaladas  por  el  famoso  teorema  de  Gauss-Markov.  Pero  antes  de  este  teorema, 
que  proporciona  justification  teorica  para  la  popularidad  de  MCO,  se  necesita  considerar  primero 
la  precision  o  los  errores  estandar  de  los  estimados  por  minimos  cuadrados. 


3.3  Precision  o  errores  estandar  de  las  estimaciones 
de  minimos  cuadrados 


De  las  ecuaciones  (3.1.6)  y  (3.1.7)  es  evidente  que  las  estimaciones  de  minimos  cuadrados  son 
funcion  de  los  datos  muestrales.  Pero,  como  es  probable  que  los  datos  cambien  entre  una  muestra 
y  otra,  los  valores  estimados  cambiaran  ipso  facto.  Por  consiguiente,  se  requiere  alguna  medida 
de  “confiabilidad”  o  precision  de  los  estimadores  fJ>\  y  (h.  En  estadistica,  la  precision  de  un  valor 
estimado  se  mide  por  su  error  estandar  (ee).15  Dados  los  supuestos  gaussianos,  en  el  apendice  3A, 
seccion  3A.3,  se  muestra  que  los  errores  estandar  de  las  estimaciones  de  MCO  pueden  obtenerse 
de  la  siguiente  manera: 


var(fc)- 

(3.3.1) 

ee  (#>)  -  - 

(3.3.2) 

V  A2 

varGSi  )= 

nllxf 

(3.3.3) 

ee(/J0= 

V  n2>t 

(3.3.4) 

14  Mark  Blaug,  The  Methodology  of  Economics:  Or  How  Economists  Explain,  2a.  ed.,  Cambridge  University 
Press,  Nueva  York,  1 992,  p.  92. 

15  El  error  estandar  no  es  otra  cosa  que  la  desviacion  estandar  de  la  distribution  muestral  del  estimador, 
y  la  distribution  muestral  de  un  estimador  es  tan  solo  una  probabilidad  o  distribution  de  frecuencias  del 
estimador,  es  decir,  una  distribution  del  conjunto  de  valores  del  estimador  obtenidos  de  todas  las  muestras 
posibles  de  igual  tamano  de  una  poblacion  dada.  Con  las  distribuciones  muestrales  se  infieren  los  valores  de 
los  parametros  de  la  poblacion,  con  base  en  los  valores  de  los  estimadores  calculados  a  partir  de  una  o  mas 
muestras  (veanse  detalles  en  el  apendice  A). 
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donde  var  =  varianza,  ee  =  error  estandar  y  a2  es  la  constante  o  varianza  homoscedastica  de  u, 
del  supuesto  4. 

Todas  las  cantidades  que  entran  en  las  anteriores  ecuaciones,  excepto  a2,  pueden  estimarse 
a  partir  de  los  datos.  Como  se  muestra  en  el  apendice  3A,  seccion  3A.5,  la  misma  a2  se  estima 
mediante  la  formula: 


d2  = 


(3.3.5) 


donde  a 2  es  el  estimador  de  MCO  de  la  verdadera  pero  desconocida  a 2 ,  y  donde  la  expresion 
n  —  2  es  conocida  como  el  numero  de  grados  de  libertad  (gl),  con  u2  como  la  suma  de  los 
valores  residuales  al  cuadrado  o  la  suma  de  cuadrados  de  los  residuos  (SCR).16 

Una  vez  conocida  o2  se  calcula  con  facilidad.  ^ u2  se  obtiene  de  (3.1.2)  o  de  la  si- 
guiente  expresion  (vease  la  demostracion  en  la  seccion  3.5): 


E 


(3.3.6) 


En  comparacion  con  la  ecuacion  (3.1.2),  es  facil  emplear  la  ecuacion  (3.3.6),  pues  no  requiere 
calcular  u,  por  cada  observacion,  a  pesar  de  la  utilidad  esencial  de  tal  calculo  (como  veremos  en 
los  capitulos  11  y  12). 

Como 


otra  expresion  para  calcular  J2  u]  es 


h. 


J2xiyj 

Exf 


{Hxiyi)2 

Ix,2 


Por  cierto,  note  que  la  raiz  cuadrada  positiva  de  <x2 


(3.3.7) 


(3.3.8) 


se  conoce  como  el  error  estandar  de  estimacion  o  el  error  estandar  de  la  regresion  (ee).  No 
es  mas  que  la  desviacion  estandar  de  los  valores  Y  alrededor  de  la  linea  de  regresion  estimada, 
la  cual  suele  servir  como  medida  para  resumir  la  “bondad  del  ajuste”  de  dicha  linea,  tema  que 
analizaremos  en  la  seccion  3.5. 

Antes  mencionamos  que,  dado  Xh  a2  representa  la  varianza  (condicional)  de  ut  y  Y,.  Por  tanto, 
el  error  estandar  de  la  estimacion  tambien  se  denomina  desviacion  estandar  (condicional)  de  u, 
y  Yj.  Sin  duda,  como  es  comun,  a2  y  aY  representan  la  varianza  incondicional  y  la  desviacion 
estandar  incondicional  de  Y,  respectivamente. 


16  El  termino  numero  de  grados  de  libertad  significa  el  numero  total  de  observaciones  en  la  muestra 
(=  n)  menos  el  numero  de  restricciones  (lineales)  independientes  o  de  restricciones  que  se  les  impusieron. 

En  otras  palabras,  es  la  cantidad  de  observaciones  independientes  de  un  total  de  n  observaciones.  Por  ejem- 
plo,  para  calcular  la  SCR  (3.1 .2),  es  necesario  obtener  antes  /3i  y  ft-  Por  consiguiente,  estas  dos  estimaciones 
imponen  dos  restricciones  a  la  SCR.  Son,  entonces,  n  —  2  las  observaciones  independientes,  y  no  n,  para 
calcular  la  SCR.  Segun  esta  logica,  en  la  regresion  con  tres  variables  SCR  tendra  n  —  3  gl,  y  para  el  modelo  de 
/(variables  tendra  n  —  k  gl.  La  regia  general  es  la  siguiente:  gl  =  (n  —  numero  de  parametros  estimados). 
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Observe  las  siguientes  caracteristicas  de  las  varianzas  (y  por  consiguiente,  de  los  errores  es- 
tandar)  de  P\  y  p2. 

1.  La  varianza  de  p2  es  directamente  proporcional  a  a 2  pero  inversamente  proporcional 
a  Y  xf-  Es  decir,  dada  a2,  entre  mas  grande  sea  la  variacion  en  los  valores  X,  menor  sera  la  va¬ 
rianza  de  ft 2  y,  por  tanto,  mayor  sera  la  precision  con  la  cual  estimar  p2.  En  resumen,  dada  ct2  si 
hay  una  variacion  sustancial  en  los  valores  de  X,  p 2  se  mide  en  forma  mas  precisa  que  cuando 
las  Xi  no  varian  sustancialmente.  Tambien,  dado  Y  xh  cntrc  mayor  sea  la  varianza  de  a2,  mayor 
sera  la  de  p2.  Advierta  que  a  medida  que  aumenta  el  tamano  n  de  la  muestra,  lo  hace  tambien  el 
numero  de  terminos  en  la  suma,  Yxr  A  medida  que  aumenta  tt,  tambien  es  mayor  la  precision 
para  estimar  p2.  (<)Por  que?) 

2.  La  varianza  de  P\  es  directamente  proporcional  a  ct2  y  a  ]CX2,  pero  inversamente  propor¬ 
cional  a  Y  x}  >'  al  tamano  n  de  la  muestra. 

3.  Como  P\  y  Pi  son  estimadores,  no  solo  variaran  de  una  muestra  a  otra,  sino  tambien,  en 
una  muestra  dada,  es  probable  que  dependan  entre  si;  esta  dependencia  se  mide  por  la  covarianza 
entre  ellos.  En  el  apendice  3A,  seccion  3A.4,  se  muestra  que: 


cov(/§!,  p2)  =  —  A  var(/§2) 


=  -X 


(3.3.9) 


Como  var(  f>2)  es  siempre  positiva,  al  igual  que  la  varianza  de  cualquier  variable,  la  naturaleza 
de  la  covarianza  entre  P\y  P2  depende  del  signo  de  X.  Si  X  es  positiva,  entonces,  como  indica 
la  formula,  la  covarianza  sera  negativa.  Asi,  si  el  coeficiente  de  la  pendiente  p2  esta  sobrestima- 
do  (es  decir,  la  pendiente  es  muy  pronunciada),  el  coeficiente  del  intercepto  P\  estara  subesti- 
mado  (es  decir,  el  intercepto  sera  muy  pequeno).  Mas  adelante  (sobre  todo  en  el  capitulo  10, 
sobre  multicolinealidad),  veremos  la  utilidad  de  estudiar  las  covarianzas  entre  los  coeficientes 
estimados  de  regresion. 

^Como  permiten  las  varianzas  y  los  errores  estandar  de  los  coeficientes  estimados  de  regre¬ 
sion  evaluar  la  confiabilidad  de  estos  valores  estimados?  Este  es  un  problema  de  la  inferencia 
estadistica,  y  lo  trataremos  en  los  capitulos  4  y  5. 


3.4 


Propiedades  de  los  estimadores  de  mmimos  cuadrados: 
teorema  de  Gauss-Markov1 7 


Como  ya  mencionamos,  dados  los  supuestos  del  modelo  clasico  de  regresion  lineal,  las  estima- 
ciones  de  mmimos  cuadrados  poseen  algunas  propiedades  ideales  u  optimas,  las  cuales  estan 
contenidas  en  el  famoso  teorema  de  Gauss-Markov.  Para  entender  este  teorema  necesitamos  con- 
siderar  la  propiedad  del  mejor  estimador  lineal  insesgado.18  Como  se  explica  en  el  apendice 
A,  se  dice  que  un  estimador,  por  ejemplo,  el  estimador  de  MCO  p2,  es  el  mejor  estimador  lineal 
insesgado  (MELI)  de  p2  si  se  cumple  lo  siguiente: 

1 .  Es  lineal,  es  decir,  funcion  lineal  de  una  variable  aleatoria,  como  la  variable  dependiente  Y  en 
el  modelo  de  regresion. 


17  Aunque  se  conoce  teorema  de  Gauss-Markov,  el  metodo  de  Gauss  de  mmimos  cuadrados  antecede  (1 821) 
al  de  Markov  de  varianza  minima  (1900). 

18Consulte  el  apendice  A,  donde  se  explica  la  importancia  de  los  estimadores  lineales  y  se  presenta  un 
analisis  general  sobre  las  propiedades  deseables  de  los  estimadores  estadfsticos. 
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2.  Es  insesgado,  es  decir,  su  valor  promedio  o  esperado,  E(/3 2),  es  igual  al  valor  verdadero,  /b. 

3.  Tiene  varianza  minima  dentro  de  la  clase  de  todos  los  estimadores  lineales  insesgados;  un 
estimador  insesgado  con  varianza  minima  se  conoce  como  estimador  eficiente. 

En  el  contexto  de  regresion  puede  probarse  que  los  estimadores  de  MCO  son  MELI.  Esta  es  la 
clave  del  famoso  teorema  de  Gauss-Markov,  el  cual  se  puede  enunciar  de  la  siguiente  forma: 


Teorema  de 
Gauss-Markov 


Dados  los  supuestos  del  modelo  clasico  de  regresion  lineal,  los  estimadores  de  mmimos  cua- 
drados,  dentro  de  la  clase  de  estimadores  lineales  insesgados,  tienen  varianza  minima,  es  decir, 
son  MELI. 


La  prueba  de  este  teorema  se  presenta  en  el  apendice  3A,  seccion  3A.6.  Conforme  avance- 
mos,  percibira  con  mayor  claridad  la  trascendencia  del  teorema  de  Gauss-Markov.  Es  suficiente 
anotar  aqui  que  el  teorema  tiene  importancia  teorica  y  practica  a  la  vez.19 

Lo  que  todo  esto  significa  se  comprende  con  ayuda  de  la  figura  3.7. 

En  la  figura  3.7a  se  presenta  la  distribucion  muestral  del  estimador  de  MCO  /t2,  es  decir, 
la  distribucion  de  los  valores  asumidos  por  /f2  en  experimentos  repetidos  de  muestreo  (vease  la 


FIGURA  3.7 

Distribucion  muestral  del 
estimador  de  MCO  $2  y 
el  estimador  alterno  f}*2. 


E(h)=p2 


a)  Distribucion  muestral  de  p2 


b)  Distribucion  muestral  de  [S2 


c)  Distribucion  muestral  de  /32  y  P2 


19  Por  ejemplo,  puede  demostrarse  que  cualquier  combinacion  lineal  de  las  p,  (/b  -  2p2),  puede  estimarse 
por  (/Si  -  lp2),  y  este  estimador  es  MELI.  Para  mas  detalles,  vease  Henri  Theil,  Introduction  to  Econometrics, 
Prentice-Hall,  Englewood  Cliffs,  Nueva  Jersey,  1978,  pp.  401-402.  Una  observacion  sobre  un  asunto  tecnico 
del  teorema  de  Gauss-Markov:  solo  establece  la  condicion  suficiente  (pero  no  la  necesaria)  para  que  los 
MCO  sean  eficientes.  El  autor  esta  en  deuda  con  Michael  McAleer,  de  la  Universidad  de  Western  Australia, 
por  hacerle  notar  este  punto. 
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tabla  3.1).  Por  conveniencia,  supusimos  que  p2  esta  distribuido  simetricamente  (en  el  capltulo  4 
abundaremos  al  respecto).  Como  indica  la  figura,  la  media  de  los  valores  /J2,  E(f} 2),  es  igual  al 
verdadero  fi2.  En  esta  situacion  se  dice  que  p2  es  un  estimador  insesgado  de  /)2.  En  la  figura  3.7 b) 
se  aprecia  la  distribucion  muestral  de  /6f,  estimador  alterno  de  obtenido  con  otro  metodo  (es 
decir,  diferente  al  de  MCO).  Por  conveniencia,  suponga  que  /If,  al  igual  que  fJ>2,  es  insesgado, 
es  decir,  que  su  valor  promedio  o  esperado  es  igual  a  fi2.  Supongamos  ademas  que  ft 2  y  /If 
son  estimadores  lineales,  es  decir,  funciones  lineales  de  Y.  <^Cual  estimador  escogeria,  /12  o  yS|? 

Para  responder,  sobreponga  las  dos  figuras,  como  en  la  figura  3.7c).  Es  obvio  que  si  bien  fi2 
y  /) f  son  insesgados,  la  distribucion  de  /If  esta  mas  difusa  o  dispersa  alrededor  del  valor  de  la 
media  que  la  distribucion  de  /)2 .  En  otras  palabras,  la  varianza  de  /If  es  mayor  que  la  varianza  de 
/32.  Ahora,  dados  dos  estimadores  a  la  vez  lineales  e  insesgados,  seria  preferible  el  estimador  con 
la  menor  varianza,  porque  es  probable  que  este  mas  cercano  a  ft2,  que  el  estimador  alterno.  En 
resumen,  se  escogeria  el  estimador  MEL1. 

El  teorema  de  Gauss-Markov  es  notable,  pues  no  hace  ninguna  suposicion  respecto  de  la 
distribucion  de  probabilidad  de  la  variable  aleatoria  y  por  consiguiente,  tampoco  respecto  de 
Y,  (en  el  siguiente  capitulo  abordaremos  esta  cuestion).  En  la  medida  en  que  se  satisfagan  los 
supuestos  del  MCRL,  el  teorema  sera  valido.  Como  resultado,  no  se  necesita  buscar  otro  esti¬ 
mador  insesgado  lineal,  pues  no  habra  otro  estimador  cuya  varianza  sea  mas  pequena  que  la  del 
estimador  de  MCO.  Por  supuesto,  si  no  se  cumple  una  o  mas  de  tales  suposiciones,  el  teorema  ya 
no  es  valido.  Por  ejemplo,  si  consideramos  los  modelos  de  regresion  no  lineales  en  los  parame- 
tros  (que  analizaremos  en  el  capitulo  14),  quiza  se  obtendrian  estimadores  que  funcionen  mejor 
que  los  estimadores  de  MCO.  Asimismo,  como  veremos  en  el  capitulo  sobre  heteroscedasticidad, 
si  no  se  cumple  el  supuesto  sobre  la  varianza  homoscedastica,  los  estimadores  de  MCO  (aunque 
sean  insesgados  y  consistentes)  ya  no  son  los  estimadores  de  varianza  minima,  incluso  dentro  de 
la  clase  de  los  estimadores  lineales. 

Las  propiedades  estadisticas  que  acabamos  de  exponer  se  conocen  como  propiedades  de 
muestras  finitas:  estas  propiedades  se  mantienen  sin  importar  el  tamano  de  la  muestra  en  que  se 
basen  los  estimadores.  Mas  adelante  tendremos  ocasion  de  considerar  las  propiedades  asintoti- 
cas,  es  decir,  propiedades  validas  solo  si  el  tamano  de  la  muestra  es  muy  grande  (tecnicamente 
hablando,  infinito).  En  el  apendice  A  se  presenta  un  analisis  general  de  las  propiedades  de  los 
estimadores  con  muestras  finitas  y  muestras  grandes. 

3.5  Coeficiente  de  determinacion  r 2:  una  medida  de 
la  “bondad  del  ajuste” 


Hasta  el  momento,  nuestro  analisis  se  centra  en  el  problema  de  estimar  los  coeficientes  de  re¬ 
gresion,  sus  errores  estandar  y  algunas  de  sus  propiedades.  Veremos  ahora  la  bondad  del  ajuste 
de  la  linea  de  regresion  a  un  conjunto  de  datos;  es  decir,  veremos  cuan  “bien”  se  ajusta  la  linea  de 
regresion  a  los  datos.  De  la  figura  3.1,  es  claro  que  si  todas  las  observaciones  cayesen  en  la  linea 
de  regresion,  obtendriamos  un  ajuste  “perfecto”,  pero  rara  vez  se  presenta  este  caso.  Por  lo  gene¬ 
ral  hay  algunas  ii,  positivas  y  algunas  zi,  negativas.  Se  tiene  la  esperanza  de  que  estos  residuos  al¬ 
rededor  de  la  linea  de  regresion  sean  lo  mas  pequenos  posibles.  El  coeficiente  de  determinacion 
r2  (caso  de  dos  variables)  o  R2  (regresion  multiple)  es  una  medida  comprendida  que  dice  cuan 
bien  se  ajusta  la  linea  de  regresion  muestral  a  los  datos. 

Antes  de  mostrar  como  calcular  r2,  consideremos  una  explicacion  heuristica  de  r2  en  terminos 
de  una  herramienta  grafica,  conocida  como  el  diagrama  de  Venn  o  de  Ballentine,  que  aparece 
en  la  figura  3. 8. 20 


20Vease  Peter  Kennedy,  "Ballentine:  A  Graphical  Aid  for  Econometrics",  Australian  Economics  Papers,  vol.  20, 
1981,  pp.  414-416.  El  nombre  Ballentine  se  deriva  del  emblema  de  la  conocida  cerveza  Ballantine  con  sus 
clrculos. 
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En  esta  figura,  el  clrculo  Y  representa  la  variacion  en  la  variable  dependiente  Y,  y  el  circulo 
X,  la  variacion  en  la  variable  explicativa  X21  La  interseccion  de  los  dos  circulos  (el  area  som- 
breada)  indica  la  medida  en  la  cual  la  variacion  en  Y se  explica  por  la  variacion  enX(por  ejemplo, 
mediante  una  regresion  de  MCO).  Entre  mayor  sea  la  medida  de  la  interseccion,  mayor  sera  la 
variacion  en  Y  que  se  explica  por  X.  r 2  es  tan  solo  una  medida  numerica  de  esta  interseccion. 
En  la  figura,  a  medida  que  se  va  de  izquierda  a  derecha,  el  area  de  la  interseccion  aumenta,  es 
decir,  sucesivamente  hay  una  proporcion  cada  vez  mayor  de  la  variacion  en  Y  que  se  explica  por 
X.  En  resumen,  r2  aumenta.  Cuando  no  hay  interseccion,  obviamente  r2  es  cero,  pero  cuando  la 
interseccion  es  completa,  r2  es  1,  pues  ciento  por  ciento  de  la  variacion  en  Y  se  explica  porX 
Como  mostraremos  en  breve,  r2  se  encuentra  entre  0  y  1. 

Para  calcular  r2  se  procede  de  la  siguiente  forma:  recuerde  que 

Yt  =  %  +  Cu  (2.6.3) 

o,  expresado  en  forma  de  desviacion, 

Yi  =  9 1  +  Ui  (3.5.1) 

donde  se  emplean  (3.1.13)  y  (3.1.14).  A1  elevar  al  cuadrado  (3.5.1)  en  ambos  lados  y  sumar  sobre 
la  muestra,  obtenemos 

E^2  =  + E +  2E-^ 

=  E#  +  Efi?  (3-5.2) 

=  Pi >E*«?  +  E“t 


pues  52  9i Ui  =  0  (t,Por  que?)  y  yt  =  fax, . 

Las  diversas  sumas  de  cuadrados  en  (3.5.2)  se  describen  de  la  siguiente  manera:  52 y?  = 
52(b/  —  b)2  =  variacion  total  de  los  valores  reales  de  Y  respecto  de  su  media  muestral,  que 
puede  denominarse  la  suma  de  cuadrados  total  (SCT).  ^  }’f  =  ^2(Y,  —  Y)2_—  }J(  Yt  —  Y )2  = 
fa  52  xf  —  variacion  de  los  valores  de  Y  estimados  alrededor  de  su  media  (Y  —  Y),  que  apro- 
piadamente  puede  llamarse  la  suma  de  cuadrados  debida  a  la  regresion  [es  decir,  debida  a  la(s) 
variable(s)  explicativa(s)],  o  explicada  por  esta,  o  simplemente  la  suma  de  cuadrados  explicada 


21  Los  terminos  variacion  y  varianza  son  diferentes.  Variacion  significa  la  suma  de  los  cuadrados  de  las  desvia- 
ciones  de  una  variable  respecto  del  valor  de  su  media.  Varianza  es  la  suma  de  los  cuadrados  dividida  por  los 
grados  de  libertad  apropiados.  En  resumen,  varianza  =  variacion/gl. 
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FIGURA  3.9 

Partition  de  la  variation 
de  Yj  en  dos  componentes. 


(SCE).  J2  u]  =  la  variacion  residual  o  no  explicada  de  los  valores  de  Y  alrededor  de  la  linea  de 
regresion,  o  solo  la  suma  de  cuadrados  de  los  residuos  (SCR).  Asi,  (3.5.2)  es 

SCT  =  SCE  +  SCR  (3.5.3) 

y  muestra  que  la  variacion  total  en  los  valores  Y  observados  alrededor  del  valor  de  su  media 
puede  dividirse  en  dos  partes,  una  atribuible  a  la  linea  de  regresion  y  la  otra  a  fuerzas  aleato- 
rias,  pues  no  todas  las  observaciones  Y  caen  sobre  la  linea  ajustada.  Geometricamente,  tenemos 
la  figura  3.9. 

Ahora,  al  dividir  la  ecuacion  (3.5.3)  entre  la  SCT  en  ambos  lados,  se  obtiene 

_  SCE  SCR 
_  SCT  +  SCT 

=  uv  -  y)2  Etf  (3‘5‘4) 

ZW  -  Y)2  zw  - f)2 


Ahora,  definimos  r2  como 


.2  =  EM  -  Y )2  =  SCE 
X;(T)  -  Y)2  SCT 


(3.5.5) 


o  tambien  como 


r2  —  1 


Z(Yi  -  Y)2 


SCR 

SCT 


(3.5.5  a) 


La  cantidad  r2  asi  definida  se  conoce  como  coeficiente  de  determination  (muestral),  y  es  la 
medida  mas  comun  de  la  bondad  del  ajuste  de  una  linea  de  regresion.  Verbalmente,  r2  mide  la 
proportion  o  el  porcentaje  de  la  variation  total  en  Y  explicada  por  el  modelo  de  regresion. 
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Pueden  observarse  dos  propiedades  de  r2: 

1.  Es  una  cantidad  no  negativa.  ((',Por  que?) 

2.  Sus  limites  son  0  <  r2  <  1  .  Un  r1  de  1  significa  un  ajuste  perfecto,  es  decir,  7,  =  Y,  por  cada 
i.  Por  otra  parte,  un  r1  de  cero  significa  que  no  hay  relation  alguna  entre  la  variable  regresada  y  la 
variable  regresora  (es  decir,  —  0).  En  este  caso,  como  indica  (3.1.9),  >,  —  ftt  —  Y,  es  decir, 
la  mejor  prediction  de  cualquier  valor  de  Y  es  simplemente  el  valor  de  su  media.  En  esta  situa¬ 
tion,  por  consiguiente,  la  linea  de  regresion  sera  horizontal  al  ejeX 

A  pesar  de  que  r2  puede  calcularse  directamente  a  partir  de  su  definicion  en  (3.5.5),  su  valor 
se  obtiene  mas  rapido  con  la  siguiente  formula: 


_  SCE 
~~  SCT 

TJL 

Et,2 

PIT.*? 

Eyf 


(3.5.6) 


Si  dividimos  el  numerador  y  el  denominador  de  (3.5.6)  por  el  tamano  n  de  la  muestra  (on  —  1,  si 
la  muestra  es  pequena),  obtenemos: 


donde  S2  y  S2  son  las  varianzas  muestrales  de  Y  y  X,  respectivamente. 
Como  fa  —  E xiYi /Exi2’  la  ecuacion  (3.5.6)  tambien  se  expresa  como 

r2  (EW 

EtEt 


(3.5.7) 


(3.5.8) 


expresion  facil  de  calcular. 

Con  la  definicion  de  r2,  SCE  y  SCR,  explicadas  antes,  se  expresan  de  la  siguiente  forma: 


SCE=  r2  ■  SCT 

-x2E-^2 

SCR=  SCT  -  SCE 

=  SCT(1—  SCE/SCT) 

=  J2yf-V-r2) 


(3.5.9) 


(3.5.10) 


Por  consiguiente,  escribimos 


SCT  =  SCE+  SCR 

E  = r2  E  y? + -  r2>  E  y> 


(3.5.11) 


expresion  que  nos  sera  muy  util  mas  adelante. 
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Una  cantidad  estrechamente  relacionada  con  r2  pero  conceptualmente  muy  diferente  es  el 
coeficiente  de  correlacion,  el  cual,  como  mencionamos  en  el  capitulo  1,  es  una  medida  del  grado 
de  asociacion  entre  dos  variables.  Se  calcula  a  partir  de 

r  =  ±dri  (3.5.12) 


o  de  su  definicion 


E  xiyt 

v  (3  5  131 

y[»E^-(E^)2][«EJf-(E^)2] 

que  se  conoce  como  coeficiente  de  correlacion  muestral.22 

Algunas  propiedades  de  r  son  las  siguientes  (vease  la  figura  3.10): 

1.  Puede  tener  signo  positivo  o  negativo,  scgun  el  signo  del  termino  en  el  numerador  de 
(3.5.13),  el  cual  mide  la  covariation  muestral  de  dos  variables. 

2.  Cae  entre  los  limites  de  —  1  y  +1;  es  decir,  —1  <  r  <  1. 

3.  Es  simetrico  por  naturaleza;  es  decir,  el  coeficiente  de  correlacion  entre  X  y  Y  (txy)  es  el 
mismo  que  entre  Y  y  X  (ryfi). 

4.  Es  independiente  del  origen  y  de  la  escala;  es  decir,  si  definimos  X*  =  aX,  +  C  y 
Y*  =  bYt  +  d,  donde  a  >  0,  b  >  0,  y  c  y  d  son  constantes,  entonces  r  entre  X*  y  Y*  es  igual  a  r 
entre  las  variables  originales  Xy  Y. 

5.  Si  X  y  Y  son  estadisticamente  independientes  (vease  la  definicion  en  el  apendice  A),  el 
coeficiente  de  correlacion  entre  ellas  es  cero;  pero  si  r  —  0,  esto  no  significa  que  las  dos  variables 
sean  independientes.  En  otras  palabras,  una  correlacion  igual  a  cero  no  necesariamente  im- 
plica  independencia.  [Vease  la  figura  3.10/z).] 

6.  Es  una  medida  de  asociacion  lineal  o  dependencia  lineal  solamente;  su  uso  en  la  descrip- 
cion  de  relaciones  no  lineales  no  tiene  significado.  Asi,  en  la  figura  3. 1  Oh),  Y—  X2  es  una  relacion 
exacta  y  a  pesar  de  ello  r  es  cero.  ((',Por  que?) 

7.  Aunque  es  una  medida  de  asociacion  lineal  entre  dos  variables,  esto  no  implica  necesaria¬ 
mente  alguna  relacion  causa-efecto,  como  mencionamos  en  el  capitulo  1 . 

En  el  contexto  de  la  regresion,  r2  es  una  medida  con  mas  significado  que  r,  pues  la  primera 
indica  la  proporcion  de  la  variacion  en  la  variable  dependiente  explicada  por  la(s)  variable(s) 
explicativa(s)  y,  por  consiguiente,  constituye  una  medida  global  del  grado  en  que  la  variacion 
en  una  variable  determina  la  variacion  en  la  otra.  La  segunda  no  tiene  tal  valor.2j  Ademas,  como 
veremos,  la  interpretation  de  r(  =  R)  en  un  modelo  de  regresion  multiple  es  de  valor  dudoso.  Sin 
embargo,  tendremos  mas  que  decir  sobre  r2  en  el  capitulo  7. 

Observe  que  la  r 2  definida  antes  tambien  puede  calcularse  como  el  coeficiente  de  correla¬ 
tion  entre  la  Y(  real  v  la  Yj  estimada,  a  saber,  Y„  elevado  al  cuadrado.  Es  decir,  con  (3.5.13),  se 
escribe 


,2  =  _[E (EMiM. 

E(Y,  -  Y)2  J2(Yi  -  ?)2 


22  El  coeficiente  de  correlacion  poblacional,  denotado  por  p,  se  define  en  el  apendice  A. 

23  En  el  proceso  de  creacion  de  modelos  de  regresion,  la  teorfa  indicara  la  direccion  de  causalidad  entre  Y y 
X,  la  cual,  en  el  contexto  de  los  modelos  uniecuacionales,  suele  presentarse  de  X  a  Y. 
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FIGURA  3.10 

Patrones  de  correlacion 
(adaptado  de  Henri  Theil, 
Introduction  to  Econo¬ 
metrics,  Prentice-Hall, 
Englewood  Cliffs,  Nueva 
Jersey,  1978,  p.  86). 
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X 


g) 


h) 


Es  decir. 


(E.nj'/)2 

omr*2) 


(3.5.14) 


donde  Yj—Y real,  Y,  —  Y  estimada  y  Y  —  Y  —  media  de  Y.  Para  la  prueba,  consulte  el  ejercicio 
3.15.  La  expresion  (3.5.14)  justifica  la  descripcion  de  r2  como  medida  de  la  bondad  del  ajuste, 
pues  senala  que  tan  cerca  estan  los  valores  de  Y  estimados  de  sus  valores  observados. 


3.6  Ejemplo  numeric o 


Para  ilustrar  la  teoria  econometrica  hasta  el  momento,  consideraremos  los  datos  de  la  tabla  2.6, 
que  relacionan  el  salario  promedio  por  hora  (7)  y  los  anos  de  escolaridad  ( X ).  La  economla 
laboral  basica  indica  que,  entre  muchas  variables,  la  escolaridad  es  un  determinante  importante 
de  los  salarios. 

En  la  tabla  3.2  se  proporcionan  los  datos  primarios  que  se  necesitan  para  estimar  el  efecto 
cuantitativo  de  la  escolaridad  en  los  salarios. 
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TABLA  3.2 

Datos  primarios  basados 
en  la  tabla  2.6 


Obs 

Y 

X 

X 

y 

x? 

7/X; 

1 

4.4567 

6 

-6 

-4.218 

36 

25.308 

2 

5.77 

7 

-5 

-2.9047 

25 

14.5235 

3 

5.9787 

8 

-4 

-2.696 

16 

10.784 

4 

7.3317 

9 

-3 

-1.343 

9 

4.029 

5 

7.3182 

10 

-2 

-1.3565 

4 

2.713 

6 

6.5844 

11 

-1 

-2.0903 

1 

2.0903 

7 

7.8182 

12 

0 

-0.8565 

0 

0 

8 

7.8351 

13 

1 

-0.8396 

1 

-0.8396 

9 

11.0223 

14 

2 

2.3476 

4 

4.6952 

10 

10.6738 

15 

3 

1.9991 

9 

5.9973 

11 

10.8361 

16 

4 

2.1614 

16 

8.6456 

12 

13.615 

17 

5 

4.9403 

25 

24.7015 

13 

13.531 

18 

6 

4.8563 

36 

29.1378 

Suma 

112.7712 

156 

0 

0 

182 

131.7856 

Obs 

xi 

Yf 

0 

u,=  Y,-Y 

of 

1 

36 

19.8621  7 

4.165294 

0.291406 

0.08491  7 

2 

49 

33.2929 

4.916863 

0.853137 

0.727843 

3 

64 

35.74485 

5.668432 

0.310268 

0.096266 

4 

81 

53.75382 

6.420001 

0.911699 

0.831195 

5 

100 

53.55605 

7.17157 

0.14663 

0.0215 

6 

121 

43.35432 

7.923139 

-1.33874 

1.792222 

7 

144 

61.12425 

8.674708 

-0.85651 

0.733606 

8 

169 

61.38879 

9.426277 

-1.59118 

2.531844 

9 

196 

121.4911 

10.17785 

0.844454 

0.713103 

10 

225 

113.93 

10.92941 

-0.25562 

0.065339 

11 

256 

117.4211 

1 1 .68098 

-0.84488 

0.713829 

12 

289 

185.3682 

12.43255 

1.182447 

1.398181 

13 

324 

183.088 

13.18412 

0.346878 

0.120324 

Suma 

2  054 

1  083.376 

112.7712 

=0 

9.83017 

Nota: 


Xi  =  Xi  -  X ■  y,  =  Yi  =  Y 
VyiXi  131.7856 


Ex? 


182.0 


=  0.7240967 


Pi  =  Y  -  p2X  =  8.674708  -  0.7240967x12  =  -0.01445 


2  _  E uf  _  9.83017 


a~  = 


=  0.893652;  a  =  0.945332 


n-2  11 

a 2  0.893652  -  , - 

var(/j2)  =  — 2  =  — T577T-  =  0.004910;  ee(ft)  =  V0.00490  =  0.070072 
Sx*  loz.U 


j  T,uf  9.83017 

r2  =  1 - U —  =  1  - =  0.9065 

E  (Yi-YY  105.1188 


r  =  yfr2  =  0.9521 


var(/§i)  = 


Ex? 

hEx? 


2  054 
13(182) 


0.868132; 


ee()§i)  =  V0.868132  =  0.9317359 
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FIGURA  3.11 

Linea  de  regresion  esti- 
mada  para  los  datos  de 
salarios  y  escolaridad  de 
la  tabla  2.6. 
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Con  los  datos  presentados  en  esta  tabla,  la  linea  de  regresion  estimada  se  obtiene  como 
sigue: 


%  =  -0.0144  +  0.7240A,-  (3.6.1) 

Geometricamente,  la  linea  de  regresion  estimada  se  muestra  en  la  figura  3.1 1. 

Como  sabemos,  cada  punto  de  la  linea  de  regresion  da  una  estimacion  del  valor  medio  de  Y 
que  corresponde  al  valor  seleccionado  de  X;  es  decir,  Y,  es  una  estimacion  de  E(Y\Xj).  El  valor 
de  (h  —  0.7240,  que  mide  la  pendiente  de  la  linea,  indica  que,  dentro  del  intervalo  muestral  de 
X  entre  6  y  18  anos  de  escolaridad,  a  rnedida  que  el  valor  de  X  aumenta  1  dolar,  el  incremento 
estimado  en  el  salario  promedio  por  hora  es  cercano  a  72  centavos  de  dolar.  Es  decir,  cada  ano 
adicional  de  escolaridad,  en  promedio,  produce  aumentos  en  los  salarios  por  hora  de  alrededor 
de  72  centavos  de  dolar. 

El  valor  de  j3\  =  —0.0144,  que  es  el  intercepto  de  la  linea,  indica  el  nivel  promedio  de  los  sala¬ 
rios  cuando  el  nivel  de  escolaridad  es  cero.  Esta  interpretacion  literal  del  intercepto  en  el  presente 
caso  no  tiene  sentido.  /.Como  podria  haber  salarios  negativos?  Como  veremos  a  lo  largo  de  este 
libro,  ocurre  con  mucha  frecuencia  que  el  termino  del  intercepto  no  tiene  un  significado  viable  ni 
practico.  Ademas,  en  la  muestra  no  se  contempla  el  nivel  cero  de  escolaridad.  Como  veremos  en 
el  capitulo  5,  el  valor  observado  del  intercepto  no  es  estadisticamente  diferente  de  cero. 

El  valor  de  r2  cercano  a  0.90  indica  que  el  nivel  de  escolaridad  explica  alrededor  de  90%  de  la 
variacion  del  salario  por  hora.  Si  consideramos  que  r2  puede  tener  un  valor  maximo  de  1,  la  linea 
de  regresion  se  ajusta  niuy  bien  a  los  datos.  El  coeficiente  de  correlacion,  r  —  0.9521,  muestra 
que  los  salarios  y  la  escolaridad  tienen  una  alta  correlacion  positiva. 

Antes  de  dejar  este  ejemplo,  observe  que  el  modelo  es  muy  sencillo.  La  teoria  economica  la- 
boral  indica  que,  aparte  de  la  escolaridad,  las  variables  como  genero,  raza,  ubicacion,  sindicatos 
e  idioma  son  tambien  factores  importantes  en  la  determinacion  de  los  salarios  por  hora.  Des¬ 
pues  de  estudiar  la  regresion  multiple  en  los  capitulos  7  y  8,  consideraremos  un  modelo  mas 
amplio  de  determinacion  de  los  salarios. 
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3.7  Ejemplos  ilustrativos 


EJEMPLO  3.1 

Relation  consumo- 
ingreso  en  Estados 
Unidos,  1960-2005 


Retomemos  los  datos  sobre  ingreso  y  consumo  de  la  tabla  1.1,  en  la  Introduccion.  Ya  presenta- 
mos  estos  datos  en  la  figura  1.3,  junto  con  la  llnea  de  regresion  estimada  en  la  ecuacion  (1.3.3). 
Ahora  proporcionamos  los  resultados  subyacentes  de  la  regresion  de  MCO  que  se  obtuvieron 
con  Eviews  6.  Observe  que  Y  =  gasto  de  consumo  personal  (GCP)  y  X  =  producto  interno  bruto 
(PIB),  ambos  en  miles  de  millones  de  dolares  de  2000.  En  este  ejemplo,  los  datos  son  de  series 
de  tiempo. 


Yt=  -299.5913  +  0.721 8Xt 


var(/?i)  =  827.4195 
varG62)  =  0.0000195 
r2  =  0.9983 


ee(3i)  =  28.7649 
ee  (/32)  =  0.004423 
a2  =  73.56689 


(3.7.1) 


La  ecuacion  (3.7.1 )  es  la  funcion  de  consumo  agregada  keynesiana  (es  decir,  para  la  economla  en 
su  conjunto).  Como  muestra  esta  ecuacion,  la  propension  marginal  a  consumir  (PMC)  es  de 
cerca  de  0.72,  lo  que  indica  que  si  el  ingreso  real  se  incrementa  un  dolar,  el  gasto  promedio 
de  consumo  personal  aumenta  casi  72  centavos.  Segun  la  teorla  keynesiana,  se  espera  que  la 
PMC  se  situe  entre  0  y  1 . 

El  valor  del  intercepto  en  este  ejemplo  es  negativo  y  no  tiene  ninguna  interpretacion  econo¬ 
mica  viable.  De  manera  textual,  significa  que  si  el  valor  del  PIB  fuera  cero,  el  nivel  promedio  del 
consumo  personal  serla  un  valor  negativo  de  alrededor  de  299  000  millones  de  dolares. 

El  valor  de  r 2  de  0.9983  significa  que  mas  o  menos  99%  de  la  variacion  en  el  consumo  perso¬ 
nal  se  explica  por  la  variacion  en  el  PIB.  Este  valor  es  muy  alto,  si  se  considera  que  r2  puede  valer 
cuando  mucho  1 .  Como  veremos  a  lo  largo  de  esta  obra,  en  las  regresiones  basadas  en  datos 
de  series  de  tiempo  por  lo  general  se  obtienen  valores  altos  de  r2.  Explicaremos  las  razones  de 
este  fenomeno  en  el  capitulo  que  trata  sobre  la  autocorrelacion,  y  tambien  en  el  capitulo  sobre 
econometrla  de  series  de  tiempo. 


EJEMPLO  3.2 

Gasto  alimentario 
en  India 


Consulte  los  datos  de  la  tabla  2.8  del  ejercicio  2.15.  Los  datos  se  refieren  a  una  muestra  de  55 
familias  rurales  de  India.  La  variable  dependiente  (regresada)  en  este  ejemplo  es  el  gasto  en 
alimentos  y  la  independiente  (regresora)  es  el  gasto  total,  una  aproximacion  del  ingreso  (ambas 
cifras  se  dan  en  rupias).  Los  datos  de  este  ejemplo  son,  por  tanto,  transversales. 

Con  base  en  los  datos  proporcionados,  obtenemos  la  siguiente  regresion: 

CasAlj  =  94.2087  +  0.4368  GasTot,  (3.7.2) 

var (,§0  =  2  560.9401  ee(3i)  =  50.8563 

var(32)  =  0.0061  ee(32)  =  0.0783 

r2  =  0.3698  62  =  4  469.6913 


En  la  ecuacion  (3.7.2)  se  observa  que  si  el  gasto  total  se  incrementa  una  rupia,  en  promedio,  el 
gasto  en  alimentos  aumenta  casi  44  paisas  (1  rupia  =  100  paisas).  Si  el  gasto  total  fuera  nulo 
(cero),  el  gasto  promedio  en  alimentos  serfa  de  mas  o  menos  94  rupias.  De  nuevo,  tal  inter¬ 
pretacion  mecanica  del  intercepto  no  tendrla  ningun  sentido.  Sin  embargo,  en  este  ejemplo  se 
puede  argumentar  que  aunque  el  gasto  total  fuera  nulo  (por  ejemplo,  debido  a  la  perdida  del 
trabajo),  la  gente  podrla  mantener  un  nivel  mfnimo  de  gasto  en  comida  si  pide  dinero  prestado 
o  recurre  a  sus  ahorros. 

El  valor  de  r 2  de  casi  0.37  significa  que  solo  37%  de  la  variacion  en  el  gasto  alimentario  se 
explica  por  el  gasto  total.  Esto  puede  parecer  un  valor  mas  bien  bajo,  pero,  como  veremos  des¬ 
pues,  en  los  datos  transversales  suelen  obtenerse  valores  bajos  de  r2,  quiza  debido  a  la  diversidad 
de  unidades  de  la  muestra.  Analizaremos  este  tema  en  el  capitulo  sobre  heteroscedasticidad 
(vease  el  capitulo  11). 
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EJEMPLO  3.3 

La  tabla  3.3  presenta  datos  sobre  el  numero  de  suscriptores  de  telefonos  celulares  y  el  niimero 

Demanda  de  tele- 

de  computadoras  personales  (PC),  ambos  por  cada  100  personas,  y  el  ingreso  per  capita  ajus- 

tado  por  el  poder  adquisitivo  en  dolares 

para  una  muestra  de  34  pafses. 

Por  tanto,  se  trata  de 

ponos  celulares 

datos  transversales.  Estos  datos 

corresponden  a  2003  y  se  obtuvieron  del  Statistical  Abstract  of 

computadoras  per¬ 

the  United  States,  2006. 

sonates  en  relacion 

Aunque  los  telefonos  celulares  y  las  computadoras  personales  son  muy  comunes  en  Estados 

con  el  ingreso  per 

Unidos,  no  ocurre  lo  mismo  en 

muchos  pafses.  Para  ver  si  el  ingreso  per  capita  es  un  factor  que 

influye  en  el  uso  de  telefonos  celulares  y  PC,  se  regreso  cada  uno  de  estos  medios  de  comunica- 

capita 

cion  sobre  el  ingreso  per  capita  con  la  muestra  de  34  pafses.  Los  resultados  son  los  siguientes: 

TABLA  3.3 

Niimero  de  suscrip- 

Telefono 

Ingreso  per  capita 

tores  de  telefonos  ce¬ 

Pais 

celular 

PC 

(EU$) 

lulares  por  cada  eien 

Alemania 

78.52 

48.47 

27  610 

personas  y  niimero  de 

Arabia  Saudita 

32.11 

13.67 

13  230 

computadoras  perso- 

Argentina 

17.76 

8.2 

11  410 

nales  por  cada  eien 

Australia 

71.95 

60.18 

28  780 

personas  e  ingreso  pet- 

Belgica 

79.28 

31.81 

28  920 

capita  en  palses  selec- 

Brasil 

26.36 

7.48 

7  510 

cionados,  correspon- 

Bulgaria 

46.64 

5.19 

75.4 

dientes  a  2003 

Canada 

41.9 

48.7 

30  040 

China 

21 .48 

2.76 

4  980 

Fuente:  Statistical  Abstract  of 

the  United  States,  2006,  tabla 

Colombia 

14.13 

4.93 

6  410 

1364  para  los  datos  sobre 

Ecuador 

18.92 

3.24 

3  940 

telefonos  celulares  y  computa¬ 

Egipto 

8.45 

2.91 

3  940 

doras,  y  tabla  1 327  para  ingreso 

Espana 

91.61 

19.6 

22  150 

per  capita  ajustado  por  poder 
adquisitivo. 

Estados  Unidos 

54.58 

40.57 

37  750 

Francia 

69.59 

34.71 

27  640 

Grecia 

90.23 

8.17 

19  900 

Guatemala 

13.15 

1.44 

4  090 

Hungrfa 

76.88 

10.84 

13  840 

India 

2.47 

0.72 

2  880 

Indonesia 

8.74 

1.19 

3  210 

Italia 

101.76 

23.07 

26  830 

Japon 

67.9 

38.22 

28  450 

Mexico 

29.47 

8.3 

8  980 

Pafses  Bajos 

76.76 

46.66 

28  560 

Pakistan 

1.75 

0.42 

2  040 

Polonia 

45.09 

14.2 

11  210 

Reino  Unido 

91.17 

40.57 

27  690 

Repiiblica  Checa 

96.46 

17.74 

15  600 

Rusia 

24.93 

8.87 

8  950 

Sudafrica 

36.36 

7.26 

10  130 

Suecia 

98.05 

62.13 

26  710 

Suiza 

84.34 

70.87 

32  220 

Tailandia 

39.42 

3.98 

7  450 

Venezuela 

27.3 

6.09 

4  750 

Nota:  Los  datos  sobre  telefonos  celulares  y  computadoras  personales  son  por  cada  100  personas. 
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Demanda  de  telefonos  celulares.  Sea  Y  =  numero  de  suscriptores  de  telefonos  celulares  y 
X  =  ingreso  per  capita  ajustado  por  poder  adquisitivo.  Con  esta  base  se  obtuvo  la  siguiente 
regresion. 

?i=  14.4773  +  0.0022X,  (3-7.3) 

ee(/§i)  =  6.1523;  ee(/j2)  =  0.00032 
r2=  0.6023 

El  coeficiente  de  pendiente  indica  que  si  el  ingreso  per  capita  aumenta,  por  ejemplo,  1  000  do- 
lares  en  promedio,  el  numero  de  suscriptores  de  telefonos  celulares  aumentara  alrededor  de  2.2 
por  cada  100  personas.  El  valor  del  intercepto  de  14.47  indica  que,  aunque  el  ingreso  per  capita 
sea  cero,  el  numero  promedio  de  suscriptores  de  telefonos  celulares  es  de  alrededor  de  14  por 
cada  100  personas.  Una  vez  mas,  es  posible  que  esta  interpretacion  no  tenga  mucho  sentido, 
pues  en  la  muestra  no  se  incluye  ningun  pals  con  ingreso  per  capita  cero.  El  valor  de  r2  es  mode- 
radamente  alto.  Sin  embargo,  observe  que  la  muestra  incluye  varios  pafses  con  diferentes  niveles 
de  ingreso.  En  una  muestra  tan  diversa,  no  se  esperarfa  un  valor  de  r2  muy  alto. 

Despues  de  estudiar  el  capftulo  5,  mostraremos  que  los  errores  estandar  estimados  que  se 
obtienen  con  la  ecuacion  3.7.3  sirven  para  evaluar  el  significado  estadfstico  de  los  coeficientes 
estimados. 

Demanda  de  computadoras  personales.  Aunque  los  precios  de  las  computadoras  personales 
han  disminuido  considerablemente  con  el  transcurso  de  los  anos,  las  PC  aun  no  estan  presentes  en 
todas  partes.  Un  determinante  importante  de  la  demanda  de  computadoras  personales  es  el 
ingreso  personal.  Otro  determinante  es  el  precio,  pero  no  se  dispone  de  datos  comparativos  de 
los  precios  de  PC  en  los  pafses  de  la  muestra. 

Si  Y  denota  el  numero  de  PC  y  X  el  ingreso  per  capita,  se  obtiene  la  siguiente  demanda  "par- 
cial"  de  PC  (parcial  porque  no  se  cuenta  con  datos  de  precios  comparativos  ni  datos  sobre  otras 
variables  que  podrfan  afectar  la  demanda  de  PC). 

?i  =  -6.5833  +  0.001 8X,  (3.7.4) 

ee(/b)  =  2.7437;  ee  (/}2)  =  0.00014 
r2=  0.8290 

Como  indican  estos  resultados,  el  ingreso  per  capita  tiene  relacion  positiva  con  la  demanda  de 
PC.  Despues  de  estudiar  el  capftulo  5  veremos  que,  en  terminos  estadfsticos,  el  ingreso  per  capita 
es  un  determinante  importante  de  la  demanda  de  PC.  El  valor  negativo  del  intercepto  en  el  pre¬ 
sente  caso  no  tiene  un  significado  practico.  Pese  a  la  diversidad  de  la  muestra,  el  valor  estimado 
de  r2  es  muy  alto.  La  interpretacion  del  coeficiente  de  pendiente  es  que  si  el  ingreso  per  capi¬ 
ta  aumenta,  por  ejemplo,  1  000  dolares  en  promedio,  la  demanda  de  computadoras  personales 
aumentara  en  alrededor  de  2  unidades  por  cada  100  personas. 

Aunque  el  uso  de  las  computadoras  personales  se  extiende  con  rapidez,  hay  muchos  pafses 
en  los  que  todavfa  se  usan  computadoras  centrales  ( mainframes ).  Por  tanto,  el  uso  total  de 
computadoras  en  esos  pafses  puede  ser  mucho  mas  elevado  de  lo  que  indica  la  venta  de  PC. 


3.8 


Una  observacion  sobre  los  experimentos  Monte  Carlo 


En  este  capftulo  vimos  que,  conforme  a  los  supuestos  del  MCRL,  los  estimadores  de  mfnimos  cua- 
drados  tienen  ciertas  caracteristicas  estadfsticas  deseables  que  se  resumen  en  la  propiedad  MEL1. 
En  el  apendice  de  este  capftulo  comprobamos  esta  propiedad  mas  formalmente.  Pero  en  la  prac- 
tica,  (',c6mo  saber  si  se  mantiene  la  propiedad  MELI?  Por  ejemplo,  ,',c6mo  se  puede  averiguar  si  los 
estimadores  de  MCO  son  insesgados?  La  respuesta  proviene  de  los  llamados  experimentos  Monte 
Carlo,  los  cuales  son,  en  esencia,  experimentos  de  muestreo  o  de  simulation  en  computadora. 

Para  introducir  las  ideas  basicas,  consideremos  la  FRP  de  dos  variables: 


Yi  —  +  faXi  +  u i 


(3.8.1) 
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Un  experimento  Monte  Carlo  se  realiza  de  la  siguiente  forma: 

1.  Supongamos  que  los  valores  verdaderos  de  los  parametros  son  los  siguientes:  ft]  —  20  y 

ft2  =  0.6. 

2.  Escogemos  el  tamano  de  la  muestra,  por  ejemplo,  n  —  25. 

3.  Fijamos  los  valores  de  X para  cada  observacion.  En  total  se  tendran  25  valores  de  X. 

4.  Supongamos  que  se  consulta  una  tabla  de  numeros  aleatorios,  elegimos  25  valores  y  los 
denominamos  u,  (hoy  en  dia,  la  mayoria  de  los  paquetes  estadlsticos  tienen  generadores  de  nu¬ 
meros  aleatorios  integrados).24 

5.  Como  conocemos  ft\,  ft2,  Xt  y  u„  con  la  ecuacion  (3.8.1)  obtenemos  25  valores  de  Yt. 

6.  Ahora,  con  los  25  valores  de  Y,  generados  de  esa  forma,  efectuamos  la  regresion  de  estos 
valores  sobre  los  25  valores  de  X seleccionados  en  el  paso  3,  y  asi  se  obtienen  los  estimadores  de 
minimos  cuadrados  ft\  y  ft2. 

7.  Supongamos  que  repite  este  experimento  99  veces,  siempre  con  los  mismos  valores  de  ft\, 
ft2  y  X.  Sin  duda,  los  valores  u,  variaran  de  un  experimento  a  otro.  Por  consiguiente,  en  total  se 
tienen  100  experimentos,  para  generar  asi  100  valores  para  cada  ft\  y  ft2.  (En  la  practica  se  reali- 
zan  muchos  experimentos  de  este  tipo;  en  ocasiones  llegan  a  1  000  o  2  000.) 

8.  Tomamos  los  promedios  de  estos  100  valores  estimados  y  los  denominamos  ft  ,  y  ft2. 

9.  Si  estos  valores  promedio  son  mas  o  menos  los  mismos  que  los  valores  verdaderos  de  ft] 
y  ft 2  supuestos  en  el  paso  1,  mediante  este  experimento  Monte  Carlo  se  “establece”  que,  en 
efecto,  los  estimadores  de  minimos  cuadrados  son  insesgados.  Recuerde  que,  segun  el  MCRL, 
E(ftft  =  0,  y  E(ft2)  =  ft2. 

Estos  pasos  caracterizan  la  naturaleza  general  de  los  experimentos  Monte  Carlo.  Tales  experi¬ 
mentos  son  comunes  al  estudiar  las  propiedades  estadisticas  de  diversos  metodos  de  estimacion 
de  parametros  poblacionales.  Son  en  particular  utiles  para  estudiar  el  comportamiento  de  los 
estimadores  en  muestras  pequenas,  o  finitas.  Estos  experimentos  son  tambien  un  medio  excelente 
de  demostracion  del  concepto  de  muestreo  repetido,  que  es  la  base  de  la  mayor  parte  de  la  infe- 
rencia  estadistica  clasica,  como  veremos  en  el  capitulo  5.  Se  presentaran  diversos  ejemplos  de  los 
experimentos  Monte  Carlo  en  forma  de  ejercicios  para  realizar  en  clase  (vease  el  ejercicio  3.27). 


Resuinen  y 
conclusiones 


Los  temas  y  conceptos  importantes  de  este  capitulo  se  resumen  de  la  siguiente  forma. 

1.  El  marco  basico  del  analisis  de  regresion  es  el  MCRL. 

2.  El  MCRL  se  basa  en  un  conjunto  de  supuestos. 

3.  Con  base  en  estos  supuestos,  los  estimadores  de  minimos  cuadrados  adquieren  ciertas  pro¬ 
piedades  resumidas  en  el  teorema  de  Gauss-Markov,  el  cual  plantea  que  dentro  de  la  clase  de 
estimadores  lineales  insesgados,  los  estimadores  de  minimos  cuadrados  tienen  una  varianza 
minima.  En  resumen,  son  MEL1. 

4.  La  precision  de  los  estimadores  de  MCO  se  mide  por  sus  errores  estandar.  En  los  capitulos 
4  y  5  veremos  que  los  errores  estandar  permiten  hacer  inferencias  sobre  los  parametros  pobla¬ 
cionales,  los  coeficientes  ft. 

5.  La  bondad  del  ajuste  general  del  modelo  de  regresion  se  mide  con  el  coeflciente  de  determi- 
nacion,  r2.  Este  indica  que  proporcion  de  la  variation  en  la  variable  dependiente,  o  variable 
regresada,  se  explica  por  la  variable  explicativa,  o  regresora.  r*  1 2 3 4 5  se  situa  entre  0  y  1;  entre  mas 
cerca  este  de  1,  mejor  sera  el  ajuste. 


24  En  la  practica  se  supone  que  u,  sigue  una  cierta  distribucion  de  probabilidad,  digamos,  normal,  con  algu- 
nos  parametros  (es  decir,  la  media  y  la  varianza).  Una  vez  especificados  los  parametros,  con  paquetes  esta- 
dfsticos  se  generan  con  facilidad  las  u,. 
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TABLA  3.4 
iQue  sucede  si  se  vio- 
lan  los  supuestos  del 
MCRL? 


EJERCICIOS 


6.  Un  concepto  relacionado  con  el  coeficiente  de  determinacion  es  el  coeficiente  de  correla- 
cion,  r.  Es  una  medida  de  asociacion  lineal  entre  dos  variables  y  su  valor  se  encuentra  entre 
-ly+1. 

7.  El  MCRL  es  un  concepto  o  abstraccion  teorica,  pues  se  basa  en  un  conjunto  de  supuestos  que 
pueden  ser  rigurosos  o  “poco  reales”.  Sin  embargo,  tal  abstraccion  es  a  menudo  necesaria  en 
las  etapas  iniciales  del  estudio  de  cualquier  disciplina.  Una  vez  dominado  el  MCRL,  se  puede 
saber  lo  que  sucede  si  uno  o  mas  de  sus  supuestos  no  se  satisfacen.  La  primera  parte  de  este 
libro  se  dedica  al  estudio  del  MCRL.  Las  demas  partes  del  libro  se  consideran  refinaciones  del 
MCRL.  La  tabla  3.4  senala  el  mapa  del  camino. 


Numero  del 
supuesto 

Tipo  de  violacion 

^Donde  estudiarlo? 

1 

No  linealidad  en  parametros 

Capitulo  14 

2 

Regresora(s)  estocastica(s) 

Capitulo  1  3 

3 

Media  de  u ,■  distinta  de  cero 

Introduccion  a  la  parte  II 

4 

Heteroscedasticidad 

Capitulo  1 1 

5 

Perturbaciones  autocorrelacionadas 

Capitulo  1 2 

6 

Observaciones  muestrales  menores  que 

Capitulo  1 0 

7 

el  numero  de  regresoras 

Variabilidad  insuficiente  en  las  regresoras 

Capitulo  1 0 

8 

Multicolinealidad* 

Capitulo  1 0 

9 

Sesgo  de  especificacion* 

Capitulos  1  3  y  14 

10** 

No  normalidad  de  las  perturbaciones 

Capitulo  1  3 

*Estos  supuestos  se  presentan  en  el  capitulo  7,  cuando  se  estudie  el  modelo  de  regresion  multiple. 

**Nota:  El  supuesto  de  que  las  perturbaciones  w,  estan  normalmente  distribuidas  no  forma  parte  del  MCRL.  Vease  mas  al  respecto  en 
el  capitulo  4. 


Preguntas 

3.1.  Dados  los  supuestos  en  la  columna  1  de  la  siguiente  tabla,  demuestre  que  los  supuestos  en 
la  columna  2  son  equivalentes. 

Supuestos  del  modelo  clasico 

(1)  (2) 

£(u,  I X/)  =  0  E{Y,  |  X,)  =  fi2  +  p2X 

cov  ( Uj ,  Uj )  =  0  /  ±  /  cov  (Yj,  Yj )  =  0  /  ^  / 

var  ( Uj  |  Xi)  =  a2  var  (Y,  [  X,)  =  a 2 


3.2.  Demuestre  que  los  valores  estimados  fi\  —  1.572  y  (J>2  —  1.357  del  primer  experimento  de 
la  tabla  3.1  son  en  realidad  los  estimadores  de  MCO. 

3.3.  De  acuerdo  con  Malinvaud  (vease  la  nota  11),  el  supuesto  de  que  E(ui  \  X)  —  0  es  muy 

importante.  Para  ver  esto,  considere  la  FRP:  Y  —  +  [J>2 X,  +  u,.  Ahora  considere  dos 

situaciones:  i)  —  0,  —  1  y  L(m,)  =  0;  y  ii)  di  =  1,  f$2  —  2  y  E(u,)  —  {Xt  —  1).  Ahora 

obtenga  la  esperanza  de  la  FRP  condicional  sobre  X  en  los  dos  casos  anteriores  y  vea  si  esta 
de  acuerdo  con  Malinvaud  sobre  la  significancia  del  supuesto  Eiu,  \  Xt)  —  0. 
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3.4.  Considere  la  regresion  muestral 

Yi  —  Pi  +  fa  Xj  +  Uj 

Impuestas  las  restricciones  i )  ^  ut  —  0  y  if)  ^  m,-X,  =  0,  obtenga  los  estimadores  Pi  y  yS2, 
y  demuestre  que  son  identicos  a  los  estimadores  de  minimos  cuadrados  dados  en  (3.1.6)  y 
(3.1.7).  Este  metodo  de  obtencion  de  estimadores  se  denomina  principio  de  analogia. 
De  una  justificacion  intuitiva  de  la  imposicion  de  las  restricciones  i)  y  ii).  ( Sugerencia : 
recuerde  los  supuestos  del  MCRL  sobre  u,.)  Ademas,  tenga  en  cuenta  que  el  principio  de 
analogia  para  la  estimacion  de  parametros  desconocidos  se  llama  tambien  metodo  de  mo- 
mentos,  en  el  cual  los  momentos  muestrales  (por  ejemplo,  la  media  muestral)  sirven  para 
estimar  los  momentos  poblacionales  (por  ejemplo,  la  media  poblacional).  Como  se  anota 
en  el  apendice  A,  un  momento  es  un  resumen  estadistico  de  una  distribucion  de  probabi- 
lidad,  como  el  valor  esperado  y  la  varianza. 

3.5.  Demuestre  que  r2  definido  en  (3.5.5)  varia  entre  0  y  1.  Utilice  la  desigualdad  de  Cauchy- 
Schwarz,  la  cual  establece  que  para  dos  variables  aleatorias  X  y  Y  cualesquiera  se  cumple 
la  siguiente  relacion: 

[E{XY)f  <  E{X2)E(Y2) 

3.6.  Sean  pYx  y  Pxy  las  pendientes  en  la  regresion  de  Y  sobre  X  y  de  X  sobre  Y,  respectiva- 
mente.  Demuestre  que 

PyxPxy  — r2 

donde  r  es  el  coeficiente  de  correlacion  entre  Xy  Y. 

3.7.  Suponga  en  el  ejercicio  3.6  que  PyxPxy  —  1-  (',Ticnc  importancia  entonces  si  se  hace  la 
regresion  Y  sobre  X,  o  X  sobre  Y?  Explique  detalladamente. 

3.8.  El  coeficiente  de  correlacion  de  orden  de  Spearman,  rs,  se  define  de  la  siguiente  forma: 

,  6X>2 

rs  —  1  ,  2  1\ 

n(nz  —  1) 

donde  d  —  la  diferencia  en  las  posiciones  o  lugares  asignados  al  mismo  individuo  o  feno- 
meno,  y  n  —  numero  de  individuos  o  de  fenomenos  ordenados.  Obtenga  rs  a  partir  de  la 
r  deftnida  en  (3.5.13).  Sugerencia:  ordene  los  valores  de  X  y  Y  de  1  hasta  n.  Note  que 
la  suma  de  todas  las  posiciones  de  Xy  Yes  n(n  +  l)/2  y,  por  consiguiente,  sus  medias  son 
(«+  D/2. 

3.9.  Considere  las  siguientes  formulaciones  de  la  FRP  de  dos  variables: 

Modelo  I:  Y ]  —  P\  +  PzXt  +  ut 
Modelo  II:  Yt  —  oi\+  oi2(Xj  —  X)  +  m; 

a)  Encuentre  los  estimadores  de  P\  y  a.\.  (',Son  identicos?  (',Sus  varianzas  son  identicas? 

b)  Encuentre  los  estimadores  de  P2  y  ai-  /.Son  identicos?  /,Sus  varianzas  son  identicas? 

c)  (',Cual  es  la  ventaja,  si  acaso,  del  modelo  II  sobre  el  modelo  I? 

3.10.  Suponga  que  realiza  la  siguiente  regresion: 

y:  —  Pi  +  PiXi  +  Uj 

donde,  como  siempre,  y,  y  x,  son  desviaciones  de  sus  respectivos  valores  medios.  (',Cual 
sera  el  valor  de  /Si?  (',Por  que?  /.Sera  p2  igual  al  obtenido  de  la  ecuacion  (3.1.6)?  ,,Por 
que? 
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TABLA  3.5 


3.11.  Sea  r\  —  coeficiente  de  correlacion  entre  n  pares  de  valores  ( Y„  X,)  y  r2  —  coeficiente  de 
correlacion  entre  n  pares  de  valores  (aX,  +  b,  cYj  +  d  ),  donde  a,  b,  c  y  d  son  constantes. 
Demuestre  que  r\  —  r2  y  de  aqul  establezca  el  principio  de  que  el  coeficiente  de  correla¬ 
cion  es  invariante  j, rente  a  cambios  de  escala  o  cambios  de  origen. 

Sugerencia:  aplique  la  definicion  de  r  dada  en  (3.5.13). 

Nota:  las  operaciones  aXj,  Xt  +  b,  y  aXj  +  b  se  conocen  respectivamente  por  los  nombres 
de  cambios  de  escala,  cambios  de  origen  y  cambios  de  escala  y  de  origen. 

3.12.  Si  r,  el  coeficiente  de  correlacion  entre  n  pares  de  valores  (Xlt  Yt),  es  positivo,  determine  si 
las  siguientes  afirmaciones  son  ciertas  o  falsas: 

a)  r  entre  (—X„  —  Y,)  es  tambien  positivo. 

h)  r  entre  {—Xt,  Y,)  y  aquel  entre  (X„  —  Y,)  pueden  ser  positivos  o  negativos. 
c)  Los  dos  coeficientes  de  pendiente,  fiyx  y  fixv  son  positivos,  donde  ftvx  —  coeficiente  de  la 
pendiente  en  la  regresion  de  Y  sobre  X  y  fixv  —  coeficiente  de  la  pendiente  en  la  regre¬ 
sion  de  X  sobre  Y. 

3.13.  Si X\,  X2  y  X2  son  variables  no  correlacionadas  y  cada  una  tiene  la  misma  desviacion  es- 
tandar,  demuestre  que  el  coeficiente  de  correlacion  entre  X\  +  X2  y  X2  +  X2  es  igual  a 
^Por  que  el  coeficiente  de  correlacion  no  es  cero? 

3.14.  En  la  regresion  Yt  =  fi\  +  PiXj  +  iq,  suponga  que  se  multiplica  cada  valor  de  X por  una 
constante,  2,  por  ejemplo.  pCambiara  esto  los  residuos  y  los  valores  ajustados  de  Y1  Expli- 
que.  (',Quc  sucede  si  se  agrega  un  valor  constante,  por  ejemplo,  2,  a  cada  valor  d el? 

3.15.  Demuestre  que  (3.5. 14)  mide  en  realidad  el  coeficiente  de  determinacion.  Sugerencia:  apli¬ 
que  la  definicion  de  r  dada  en  (3.5.13)  y  recuerde  que  +  w z ) j)/  = 

y  recuerde  (3.5.6). 

3.16.  De  razones  por  las  que  los  siguientes  enunciados  son  verdaderos,  falsos  o  ambiguos. 

a)  Como  la  correlacion  entre  dos  variables,  Y  y  X,  puede  variar  de  -1  a  +1,  esto  significa 
que  cov(  Y,  X )  tambien  esta  dentro  de  esos  limites. 

b)  Si  la  correlacion  entre  dos  variables  es  cero,  esto  quiere  decir  que  no  existe  ninguna 
relacion  entre  las  dos  variables. 

c)  Si  se  hace  la  regresion  de  Y,  sobre  Y,  (es  decir,  la  Y  real  sobre  la  Y  estimada),  el  valor 
del  intercepto  y  de  la  pendiente  seran  respectivamente  0  y  1. 

3.17.  Regresion  sin  regresora.  Suponga  que  se  le  proporciona  el  siguiente  modelo:  L  =  /L  + 
Con  los  MCO,  determine  el  estimador  de  /fi.  ^Cual  es  su  varianza  y  su  SCR?  ^La  esti- 
macion  tiene  algun  sentido  intuitivo?  Ahora  considere  el  modelo  de  dos  variables  Y,  — 
P\  +  PiXi  +  Mj.  /  Vale  la  pena  anadir  X,  al  modelo?  Si  no  es  asi,  /,por  que  molestarse  con  el 
analisis  de  regresion? 

Ejercicios  empfricos 

3.18.  En  la  tabla  3.5  se  dan  las  posiciones  o  lugares  de  10  estudiantes  en  los  examenes  interme- 
dios  y  finales  de  estadistica.  Calcule  el  coeficiente  de  correlacion  de  orden  de  Spearman  e 
interpretelo: 


Estudiante 

Posicion  ABCDEFGH  IJ 

Intermedios  1  3  710954  826 

Finales  328  79651014 
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3.19.  Relation  entre  el  tipo  de  cambio  nominal y  los precios  relativos.  A  partir  de  las  observa- 


ciones  anuales  de  1985  a  2005,  se  obtuvieron  los  siguientes  resultados  de  regresion,  donde 
Y  —  tipo  de  cambio  del  dolar  canadiense  respecto  del  dolar  estadounidense  (CD/$)  y 
X  —  razon  entre  el  indice  de  precios  al  consumidor  estadounidense  y  el  indice  de  precios  al 
consumidor  canadiense;  es  decir,  X representa  los  precios  relativos  en  ambos  paises: 


Y,  =  -0.912  +  2.250V,  r2  =  0.440 


0.096 


ee 


a )  Interprete  esta  regresion.  /.Como  interpretaria  r2? 

b )  /El  valor  positivo  de  X,  tiene  sentido  economico?  /En  que  teoria  economica  se  basa? 

c)  Suponga  que  se  fuera  a  redefinir  Icomo  la  razon  entre  el  IPC  canadiense  respecto  del 
1PC  estadounidense.  /Lo  anterior  haria  cambiar  el  signo  de  XI  /Por  que? 

3.20.  La  tabla  3.6  proporciona  datos  sobre  los  indices  de  production  por  hora  (X)  y  la  compen¬ 
sation  real  por  hora  (7)  de  los  negocios  y  sectores  no  agricolas  de  la  economia  de  Estados 
Unidos  de  1960  a  2005.  El  ano  base  para  los  indices  es  1992  =  100;  ademas,  los  indices  se 
ajustan  por  estacionalidad. 

a)  Grafique  por  separado  Y respecto  de  X para  los  dos  sectores. 

b)  /En  que  teoria  economica  se  basa  la  relation  entre  ambas  variables?  /El  diagrama  de 
dispersion  apoya  esta  teoria? 

c)  Estime  la  regresion  MCO  de  Y  sobre  X.  Guarde  los  resultados  para  una  revision  poste¬ 
rior,  cuando  estudie  el  capitulo  5. 

3.21.  De  una  muestra  de  10  observaciones  se  obtuvieron  los  siguientes  resultados: 


J2  Y<  =  1  HO  J2Xi  =  1  700  J2X‘Yi  =  205  500 


con  el  coeficiente  de  correlation  r  —  0.9758.  Pero  al  verificar  estos  calculos  se  descubrio 
que  se  registraron  dos  pares  de  observaciones: 


X 


Y  X 


/Cual  sera  el  efecto  de  este  error  en  r?  Obtenga  la  r  correcta. 

3.22.  La  tabla  3.7  presenta  los  datos  sobre  el  precio  del  oro,  el  indice  de  precios  al  consumidor 
(IPC)  y  el  indice  de  la  Bolsa  de  Valores  de  Nueva  York  (BVNY)  de  Estados  Unidos  de  1974 
a  2006.  El  indice  de  la  BVNY  incluye  la  mayor  parte  de  las  acciones  registradas,  las  cuales 
ascienden  a  mas  de  1  500. 

a)  En  el  mismo  diagrama  de  dispersion,  grafique  los  precios  del  oro,  el  IPC  y  el  indice  de 


la  BVNY. 


b)  Se  supone  que  una  inversion  es  una  proteccion  contra  la  inflacion  si  su  precio  o  la  tasa 
de  rendimiento  se  mantiene  por  lo  menos  al  ritmo  de  la  inflacion.  Para  probar  esta  hi- 
potesis,  suponga  que  se  decide  ajustar  el  siguiente  modelo,  suponiendo  que  el  grafico 
de  los  puntos  dispersos  en  a)  indica  que  esto  es  lo  apropiado: 


Precio  del  oro,  =  ySi  +  fa  IPC,  +  ut 
Indice  BVNY,  =  ft  +  fa  IPC,  +  u. 


Capftulo  3  Modelo  de  regi'esion  con  dos  variables:  problema  de  estimation  89 


TABLA  3.6 

Produetividad  y  datos 
relacionados,  sector  de 
negocios  1960-2005 
(cifras  de  indices, 

1992  =  100;  datos 
trimestrales  ajustados 
por  estacionalidad) 

Fuente:  Economic  Report  of  the 
President,  2007,  tabla  49. 


Produccion 
todas  las 

por  hora  de 
personas1 

Remuneracion  real 
por  hora2,3 

Sector  de 

Sector  de 

Sector  de 

negocios  no 

Sector  de 

negocios  no 

Ano 

negocios 

agricolas 

negocios 

agricolas 

1960 

48.9 

51.9 

60.8 

63.3 

1961 

50.6 

53.5 

62.5 

64.8 

1962 

52.9 

55.9 

64.6 

66.7 

1963 

55.0 

57.8 

66.1 

68.1 

1964 

56.8 

59.6 

67.7 

69.3 

1965 

58.8 

61.4 

69.1 

70.5 

1966 

61.2 

63.6 

71.7 

72.6 

1967 

62.5 

64.7 

73.5 

74.5 

1968 

64.7 

66.9 

76.2 

77.1 

1969 

65.0 

67.0 

77.3 

78.1 

1970 

66.3 

68.0 

78.8 

79.2 

1971 

69.0 

70.7 

80.2 

80.7 

1972 

71.2 

73.1 

82.6 

83.2 

1973 

73.4 

75.3 

84.3 

84.7 

1974 

72.3 

74.2 

83.3 

83.8 

1975 

74.8 

76.2 

84.1 

84.5 

1976 

77.1 

78.7 

86.4 

86.6 

1977 

78.5 

80.0 

87.6 

88.0 

1978 

79.3 

81.0 

89.1 

89.6 

1979 

79.3 

80.7 

89.3 

89.7 

1980 

79.2 

80.6 

89.1 

89.6 

1981 

80.8 

81.7 

89.3 

89.8 

1982 

80.1 

80.8 

90.4 

90.8 

1983 

83.0 

84.5 

90.3 

90.9 

1984 

85.2 

86.1 

90.7 

91.1 

1985 

87.1 

87.5 

92.0 

92.2 

1986 

89.7 

90.2 

94.9 

95.2 

1987 

90.1 

90.6 

95.2 

95.5 

1988 

91.5 

92.1 

96.5 

96.7 

1989 

92.4 

92.8 

95.0 

95.1 

1990 

94.4 

94.5 

96.2 

96.1 

1991 

95.9 

96.1 

97.4 

97.4 

1992 

100.0 

100.0 

100.0 

100.0 

1993 

100.4 

100.4 

99.7 

99.5 

1994 

101.3 

101.5 

99.0 

99.1 

1995 

101.5 

102.0 

98.7 

98.8 

1996 

104.5 

104.7 

99.4 

99.4 

1997 

106.5 

106.4 

100.5 

100.3 

1998 

109.5 

109.4 

105.2 

104.9 

1999 

112.8 

112.5 

108.0 

107.5 

2000 

116.1 

115.7 

112.0 

111.5 

2001 

119.1 

118.6 

113.5 

112.8 

2002 

124.0 

123.5 

115.7 

115.1 

2003 

128.7 

128.0 

117.7 

117.1 

2004 

132.7 

131.8 

119.0 

118.2 

2005 

135.7 

134.9 

120.2 

119.3 

1  Production  se  refiere  al  producto  interno  bruto  real  en  el  sector. 

2  Sueldos  y  salarios  de  los  empleados,  mas  la  contribution  de  los  patrones  al  seguro  social  y  los  planes  privados  de  prestaciones. 

3  Remuneration  por  hora  dividida  entre  el  indice  de  precios  al  consumidor  para  todos  los  consumidores  urbanos  en  los  trimestres 
recientes. 
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TABLA  3.7 

Precios  del  oro,  indice 
de  la  Bolsa  de  Valores  de 
Nueva  York  e  Indice  de 
Precios  al  Consumidor 
de  Estados  Unidos, 
1974-2006 


Ano 

Precio  del  oro 

BVNY 

IPC 

1974 

159.2600 

463.5400 

49.30000 

1975 

161.0200 

483.5500 

53.80000 

1976 

124.8400 

575.8500 

56.90000 

1977 

157.7100 

567.6600 

60.60000 

1978 

193.2200 

567.8100 

65.20000 

1979 

306.6800 

616.6800 

72.60000 

1980 

612.5600 

720.1500 

82.40000 

1981 

460.0300 

782.6200 

90.90000 

1982 

375.6700 

728.8400 

96.50000 

1983 

424.3500 

979.5200 

99.60000 

1984 

360.4800 

977.3300 

103.9000 

1985 

317.2600 

1  142.970 

107.6000 

1986 

367.6600 

1  438.020 

109.6000 

1987 

446.4600 

1  709.790 

1 1  3.6000 

1988 

436.9400 

1  585.140 

118.3000 

1989 

381.4400 

1  903.360 

124.0000 

1990 

383.5100 

1  939.470 

130.7000 

1991 

362.1100 

2  181.720 

136.2000 

1992 

343.8200 

2  421.510 

140.3000 

1993 

359.7700 

2  638.960 

144.5000 

1994 

384.0000 

2  687.020 

148.2000 

1995 

384.1700 

3  078.560 

152.4000 

1996 

387.7700 

3  787.200 

156.9000 

1997 

331.0200 

4  827.350 

160.5000 

1998 

294.2400 

5  818.260 

163.0000 

1999 

278.8800 

6  546.810 

166.6000 

2000 

279.1100 

6  805.890 

1  72.2000 

2001 

274.0400 

6  397.850 

177.1000 

2002 

309.7300 

5  578.890 

179.9000 

2003 

363.3800 

5  447.460 

184.0000 

2004 

409.7200 

6  612.620 

188.9000 

2005 

444.7400 

7  349.000 

195.3000 

2006 

603.4600 

8  357.990 

201.6000 

3.23.  La  tabla  3.8  proporciona  datos  sobre  el  producto  interno  bruto  (PIB)  de  Estados  Unidos  de 
1959  a  2005. 

a)  Grafique  los  datos  del  PIB  en  dolares  actuales  y  constantes  (es  decir,  de  2000)  respecto 
del  tiempo. 

b)  Sea  Y el  PIB  y  Xe\  tiempo  (medido  cronologicamente,  empezando  con  1  para  1959,  2 
para  1960,  hasta  47  para  2005),  observe  si  el  siguiente  modelo  se  ajusta  a  los  datos  del 
PIB: 

Yt  —  P i  +  Pi  X,  +  ut 

Estime  este  modelo  para  el  PIB  en  dolares  constantes  y  actuales. 

c)  /.Como  interpretaria  fiX 

d )  Si  existiera  una  diferencia  entre  el  valor  estimado  de  Pi  para  el  PIB  en  dolares  actuales 
y  el  estimado  para  el  PIB  en  dolares  constantes,  ^que  la  explicaria? 

e)  Con  base  en  sus  resultados,  ^que  puede  decir  sobre  la  naturaleza  de  la  inflacion  en 
Estados  Unidos  en  el  periodo  de  muestra? 
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TABLA  3.8 

Producto  interno  bruto 

Ano 

PIBN 

PIBR 

Ano 

PIBN 

PIBR 

nominal  y  real,  Estados 

1959 

506.6 

2  441.3 

1983 

3  536.7 

5  423.8 

Unidos,  1959-2005  (miles 

1960 

526.4 

2  501.8 

1984 

3  933.2 

5  813.6 

de  millones  de  dolares. 

1961 

544.7 

2  560.0 

1985 

4  220.3 

6  053.7 

salvo  si  se  indica  otra 

1962 

585.6 

2  715.2 

1986 

4  462.8 

6  263.6 

cosa;  datos  trimestrales 

1963 

617.7 

2  834.0 

1987 

4  739.5 

6  475.1 

a  tasas  anuales  ajustadas 

1964 

663.6 

2  998.6 

1988 

5  103.8 

6  742.7 

por  estacionalidad;  pro¬ 

1965 

719.1 

3  191.1 

1989 

5  484.4 

6  981.4 

ducto  interno  bruto  real 

1966 

787.8 

3  399.1 

1990 

5  803.1 

7  112.5 

[PIBR]  en  miles  de  mi¬ 

1967 

832.6 

3  484.6 

1991 

5  995.9 

7  100.5 

llones  de  dolares  de  2000 

1968 

910.0 

3  652.7 

1992 

6  337.7 

7  336.6 

ajustados  en  el  tiempo 

1969 

984.6 

3  765.4 

1993 

6  657.4 

7  532.7 

por  la  inflation) 

1970 

1  038.5 

3  771.9 

1994 

7  072.2 

7  835.5 

1971 

1  127.1 

3  898.6 

1995 

7  397.7 

8  031.7 

1972 

1  238.3 

4  105.0 

1996 

7  816.9 

8  328.9 

1973 

1  382.7 

4  341.5 

1997 

8  304.3 

8  703.5 

1974 

1  500.0 

4  319.6 

1998 

8  747.0 

9  066.9 

1975 

1  638.3 

4  311.2 

1999 

9  268.4 

9  470.3 

1976 

1  825.3 

4  540.9 

2000 

9  817.0 

9  817.0 

1977 

2  030.9 

4  750.5 

2001 

10  128.0 

9  890.7 

1978 

2  294.7 

5  015.0 

2002 

10  469.6 

10  048.8 

1979 

2  563.3 

5  173.4 

2003 

10  960.8 

10  301.0 

1980 

2  789.5 

5  161.7 

2004 

11  712.5 

10  703.5 

1981 

3  128.4 

5  291.7 

2005 

12  455.8 

11  048.6 

1982 

3  255.0 

5  189.3 

Fuente:  Economic  Report  of  the  President ,  2007  tablas  B-l  y  B-2. 


3.24.  Con  los  datos  de  la  tabla  1.1  de  la  Introduccion,  verifique  la  ecuacion  (3.7.1). 

3.25.  Para  el  ejemplo  del  examen  SAT  presentado  del  ejercicio  2.16,  haga  lo  siguiente: 

a)  Grafique  la  calificacion  del  examen  de  lectura  de  mujeres  contra  la  calificacion  del 
examen  de  lectura  de  hombres. 

b)  Si  el  diagrama  de  dispersion  indica  que  parece  apropiado  establecer  una  relacion  lineal 
entre  los  dos,  obtenga  la  regresion  de  la  calificacion  del  examen  de  lectura  de  mujeres 
sobre  la  calificacion  del  examen  de  lectura  de  hombres. 

c)  De  haber  una  relacion  entre  las  dos  calificaciones  de  lectura,  /.dicha  relacion  seria  cau¬ 
sal'! 

3.26.  Repita  el  ejercicio  3.25,  pero  ahora  sustituya  las  calificaciones  de  lectura  con  las  de  mate- 
maticas. 

3.27.  Trabajo  para  realizar  en  clase  sobre  el  estudio  Monte  Carlo:  Consulte  los  10  valores  de 
X de  la  tabla  3.2.  Sea  fi\  —  25  y  /b  =  0.5.  Suponga  que  if  ~  N( 0,  9),  es  decir,  las  u,  estan 
normalmente  distribuidas  con  media  0  y  varianza  9.  Genere  100  muestras  con  estos  valores 
para  obtener  100  valores  estimados  de  y  fa-  Grafique  estos  valores  estimados.  /, A  que 
conclusiones  llega  a  partir  del  estudio  Monte  Carlo?  Nota:  ahora  la  mayor  parte  de  los 
paquetes  estadisticos  genera  variables  aleatorias  de  casi  todas  las  distribuciones  de  proba- 
bilidad  conocidas.  Pida  ayuda  a  su  profesor  en  caso  de  que  tenga  dificultad  para  generar 
dichas  variables. 

3.28  Con  los  datos  de  la  tabla  3.3,  obtenga  la  grafica  del  niimero  de  suscriptores  de  telefonos 
celulares  en  relacion  con  el  niimero  de  computadoras  personales  en  uso.  /.Hay  alguna  rela¬ 
cion  discernible  entre  los  dos?  De  ser  asi, ;  como  la  explicaria? 
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Apendice  3A 


3A.1  Derivacion  de  estimados  de  mmimos  cuadrados 


A1  diferenciar  parcialmente  (3.1.2)  respecto  de  Pi  y  p2,  se  obtiene 


3j8i 


-2  YfiYi  ~  h  ~  fat) 


-2E“' 


3(E«?) 

9/§2 


-2  J2(Yi  -Pi-  p2Xi)X,  =  -2  u,X, 


0) 

(2) 


Se  igualan  estas  ecuaciones  a  cero  y,  despues  de  alguna  simplification  y  manipulation  algebraica,  se  obtie- 
nen  los  estimadores  dados  en  las  ecuaciones  (3.1.6)  y  (3.1.7). 


3A.2  Propiedades  de  linealidad  e  insesgamiento 
de  los  estimadores  de  mmimos  cuadrados 


De  (3.1.8)  se  tiene 

&  =  =  <3) 

donde 


k  = 


(M) 


lo  cual  muestra  que  p2  es  un  estimador  lineal  porque  es  una  funcion  lineal  de  Y;  de  hecho,  es  un  promedio 
ponderado  de  Yt  donde  kt  representa  las  ponderaciones.  De  la  misma  manera  se  demuestra  que  Pi  tambien 
es  un  estimador  lineal. 

Por  cierto,  note  las  siguientes  propiedades  de  las  ponderaciones  k,: 


1 .  Como  se  supuso  que  las  X,  son  no  estocasticas,  las  kt  tambien  son  no  estocasticas 

2.  Y.ki  =  0. 

3-  £*?  =  i/5>?- 

4.  kjXi  =  kjXi  =  1 .  Estas  propiedades  se  verifican  directamente  con  la  definition  de  kt. 


Por  ejemplo, 


=  0, 


pues,  para  una  muestra  dada,  se  conoce  x? 

pues  xi  >  suma  de  las  desviaciones  de  la  media,  es 
siempre  cero. 


Ahora  sustituya  la  FRP  Yt  =  Pi  +  p2Xj  +  en  la  ecuacion  (3)  para  obtener 


P2  —  '^jki(Pi  +  p2Xt  +  Uj ) 

=  P\  E^'  +  P1^2,klXi  +  E kiUi  (4) 

=  P2  +  kiui 


donde  se  emplean  las  propiedades  de  kt  anotadas  antes. 
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Ahora,  al  obtener  los  valores  esperados  de  la  ecuacion  (4)  para  ambos  lados  y  advertir  que  las  kh  al  ser 
no  estocasticas,  pueden  tratarse  como  constantes,  se  obtiene: 

£(&)  =  ft  +  x>  £(«-) 

W/ 

=  ft 

pues  E(ui)  =  0  por  suposicion.  Por  consiguiente,  ft  es  un  estimador  insesgado  de  ft.  De  la  misma  manera 
se  demuestra  que  ft  es  tambien  un  estimador  insesgado  de  ft. 


3A.3  Varianzas  y  errores  estandar  de  los  estimadores 
de  rmnimos  cuadrados 

Ahora,  de  acuerdo  con  la  definicion  de  varianza,  se  escribe 
var(ft)  =  £[ft-£(ft)]2 


=  E(fii  -  ft)2 


=  E 
=  E 


porque  £(ft)  =  ft 
(Y,  ki  u  i  ^  con  la  ecuacion  (4)  anterior 

(k\u\  +  k^u\  4 - b  L2m2  +  lk\k2u\u2  H - f 

2a  _  „2, 


Por  los  supuestos  E(iq)  =  a 2  para  cada  i  y  E(UiUj)  =  0,  i  ^  j,  se  deduce  que 

var  (ft)  =  a2yk 2 

a 2  , 

=  — — r  (con  la  definicion  de  k~) 

Eft2 

=  Ecuacion  (3.3.1) 


(6) 


(7) 


La  varianza  de  ft  se  obtiene  con  el  mismo  razonamiento.  Una  vez  obtenidas  las  varianzas  de  ft  y  ft,  se 
obtienen  tambien  los  errores  estandar  correspondientes,  al  tomar  las  ralces  cuadradas  positivas. 


3A.4  Covarianza  entre  /?i  y 


Por  definicion, 

cov(ft,  ft)  =  £{[ft  -  £(ft)][ft  -  £(ft)]} 

=  £(ft  -  ft)(ft  -  ft)  UPorque?) 

=  -X£(ft  -  ft)2  (8) 

=  -X  var  (ft) 

=  Ecuacion  (3.3.9) 

donde  se  aprovecha  que  ft  =  7  —  ftE  y  E’(ft)  =  7  —  ftX,  que  es  igual  a  ft  —  Zs(ft)  =  —  E(ft  —  ft). 
Aota:  la  var(ft)  esta  dada  en  la  ecuacion  (3.3.1). 

3A.5  Estimador  de  rmnimos  cuadrados  de  a2 

Recuerde  que 


Yi  —  ft  +  ft  A;  +  u 


(9) 
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Por  consiguiente, 

Y  =  (3 1  +  faX  +  u 

Al  restar  la  ecuacion  (10)  de  la  ecuacion  (9)  se  obtiene 

yt  =  Pi*i  +  ( ut  -  «) 

Recuerde  tambien  que 

«i  =  yt  -  hxi 

Por  tanto,  al  sustituir  (ll)en(12)se  obtiene 

Mi  =  PlXj  +  ( Ui  -  it)  -  p2Xi 


(10) 


(11) 


(12) 


(13) 


Se  reunen  terminos,  se  eleva  al  cuadrado  y  se  suman  ambos  lados  para  obtener: 

=  (h  -  foj2  Yd  +  XA  ~  E)2  ~  2(&  _  &)  J2Xj(Ui  ~  ^  (14) 

Al  tomar  valores  esperados  en  ambos  lados  se  tiene 

E  (XI  “0  =  !>?*(&  ~  P7?  +  E  [l>  “  fa  ~  2E  [(^2  “  ~  “)] 

=  Y^d  var(y62)  +  (n  —  1)  var(«,-)  —  2E 

=  a2  +  (n  —  1)  a2  —  2£  kjXjU2  j  (15) 

=  cr2  +  (m  —  1)  a2  —  2  a2 
=  (n  —  2  )cr2 

donde,  en  el  penultimo  paso,  se  utiliza  la  definition  de  kt  dada  en  la  ecuacion  (3)  y  la  relation  dada  en  la 
ecuacion  (4).  Tambien  observe  que 


E  Yluj  —  u)2  =  E  u2  —  hm2J 


=  E 


=  E 


Yd-" 


E*?-;E(-?)' 


=  no - cr 2  =  (n  —  1  )o2 

n 

donde  se  aprovecha  que  las  u,  estan  no  correlacionadas  y  que  la  varianza  de  cada  «,■  es  cr. 
Asi,  se  obtiene 


Por  tanto,  si  se  define 


E  (X“?)  =  (”  “  2)c 

-2  £«? 


n  —  2 


su  valor  esperado  es 

E(< t2)  =  - —E  u2^  =  a2  con  la  ecuacion  (16) 

lo  cual  muestra  que  a2  es  un  estimador  insesgado  de  la  verdadera  a2. 


(16) 


(17) 


(18) 
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3A.6  Propiedad  de  varianza  minima  de  los  estimadores 
de  rmnimos  cuadrados 


Se  demostro  en  el  apendice  3A,  section  3A.2,  que  el  estimador  j32  de  mlnimos  cuadrados  $2  era  lineal  e 
insesgado  (esto  vale  tambien  para  /fi).  Para  demostrar  que  estos  estimadores  tienen  varianza  minima  dentro 
de  la  clase  de  todos  los  estimadores  lineales  insesgados,  considere  el  estimador  de  mlnimos  cuadrados  fi2: 

h  =  J2kiY- 

donde 

X  —  X  x ■ 

ki  = - - - ,  (vease  el  apendice  3A.2)  (19) 

-  X)1  Z4 

lo  cual  demuestra  que  p2  es  un  promedio  ponderado  de  las  Y,  con  las  kt  como  ponderaciones. 

Se  define  un  estimador  lineal  alterno  de  p2  de  la  siguiente  forma: 

ft  =  E  H'  K'  (20) 

donde  w,-  son  tambien  ponderaciones,  no  necesariamente  iguales  a  kt.  Ahora 


E(rt)  =  J2WiEW 
=  E^l  +faX0 

=  Pi  E  Wi  +  p2  ^2  wiXi 

Por  consiguiente,  para  que  (/J|)  sea  insesgado  se  requiere  que 

Ew'=° 

y 

E  w‘Xi  =  1 


Tambien  se  puede  escribir 
var(/3|)  =  var  ^  w,  Y, 


[Nota:  vari)  =  varw,  =  cr2] 
[Nota:  cav (Yi,  Yj)  =  0  (i  ^  /)] 


(Observe  la  manipulation  matematica) 


(21) 


(22) 

(23) 


(24) 


porque  el  ultimo  termino  desaparece  en  el  penultimo  paso.  ((.Por  que?) 

Como  el  ultimo  termino  en  la  ecuacion  (24)  es  constante,  la  varianza  de  (/6f)  solo  se  reduce  al  manipular 
el  primer  termino.  Sea 


Xi 


La  ecuacion  (24)  se  reduce  a 


=  var  (B2) 


var  (/if) 


(25) 
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Expresado  en  palabras,  con  ponderaciones  w,  =  k,,  que  son  ponderaciones  de  minimos  cuadrados,  la  va- 
rianza  del  estimador  lineal  /If  es  igual  a  la  del  estimador  de  minimos  cuadrados  fe  de  lo  contrario,  la 
var(/if)  >  var(/S2).  Dicho  de  otra  manera,  si  hay  un  estimador  lineal  insesgado  de  fi2  de  varianza  minima, 
debe  ser  el  estimador  de  minimos  cuadrados.  Del  mismo  modo  se  demuestra  que  /Si  es  un  estimador  lineal 
insesgado  con  varianza  minima  de  fi\. 


3A.7  Consistencia  de  los  estimadores  de  rmnimos 
cuadrados 


Ya  se  demostro  que,  en  el  marco  teorico  del  modelo  de  regresion  lineal  clasica,  los  estimadores  minimos 
cuadrados  son  insesgados  (y  eficientes)  con  cualquier  tamano  de  muestra,  grande  o  pequena.  Pero  a  veces, 
como  se  analiza  en  el  apendice  A,  un  estimador  no  satisface  una  o  mas  propiedades  estadisticas  deseables 
en  pequenas  muestras.  Sin  embargo,  a  medida  que  el  tamano  de  la  muestra  crece  indefinidamente,  los  es¬ 
timadores  poseen  diversas  propiedades  estadisticas  deseables.  Tales  propiedades  se  conocen  como  propie¬ 
dades  asintoticas  o  de  muestras  grandes.  En  el  apendice  se  analizara  una  propiedad  de  muestra  grande,  a 
saber,  la  propiedad  de  consistencia,  que  se  estudia  con  mayor  detalle  en  el  apendice  A.  Para  el  modelo  de 
dos  variables  ya  se  mostro  que  el  estimador  de  MCO  /l 2  es  un  estimador  insesgado  del  verdadero  fi 2 •  Ahora 
se  demuestra  que  I32  es  tambien  un  estimador  consistente  de  fl2.  Como  se  analiza  en  el  apendice  A,  una 
condicion  suficiente  para  la  consistencia  es  que  /S2  sea  insesgado  y  que  su  varianza  tienda  a  cero  conforme 
el  tamano  de  la  muestra  n  tienda  al  infinite. 

Como  ya  se  probo  la  propiedad  de  insesgamiento,  solo  se  necesita  demostrar  que  la  varianza  de  /32  tiende 
a  cero  conforme  n  crece  indefinidamente.  Se  sabe  que 


var(^§2)  = 


a1  In 

Y,x?/n 


(26) 


Al  dividir  el  numerador  y  el  denominador  por  n,  no  se  modifica  la  igualdad. 
Ahora 


lim  varCfe)  =  lim  (  J!  )  =  0  (27) 

VI Zxf/nJ 

n  — >  00  n  — >  00 

donde  se  aprovecha  que  1)  el  limite  de  una  razon  es  el  limite  del  numerador  entre  el  limite  del  denominador 
(consulte  un  libro  de  calculo);  2)  conforme  n  tiende  a  infinite,  cr/«  tiende  a  cero  porque  ct2  es  un  numero 
finite,  y  [( H  v,2)/«]  ^  0  porque  la  varianza  de  X tiene  un  limite  finite  en  vista  del  supuesto  7  del  MCRL. 

La  conclusion  del  analisis  anterior  es  que  el  estimador  de  MCO  /32  es  un  estimador  consistente  del  ver¬ 
dadero  /1 2-  De  igual  forma,  se  establece  que  /fi  tambien  es  un  estimador  consistente.  Por  tanto,  en  repetidas 
muestras  (pequenas),  los  estimadores  de  MCO  son  insesgados,  y  conforme  la  muestra  aumenta  indefi¬ 
nidamente,  los  estimadores  de  MCO  son  consistentes.  Como  se  vera  mas  tarde,  aunque  no  se  satisfagan 
algunas  suposiciones  del  MCRL,  en  diversas  situaciones  es  posible  obtener  estimadores  consistentes  de  los 
coeficientes  de  regresion. 


Capitulo 


Modelo  clasico  de 
regresion  lineal  normal 

(MCRLN) 

La  llamada  teoria  clasica  de  la  inferencia  estadistica  consta  de  dos  ramas,  a  saber:  estimacion 
y  pruebas  de  hipotesis.  Hasta  el  momento  hemos  estudiado  el  tema  de  la  estimacion  de  los 
parametros  del  modelo  de  regresion  lineal  (con  dos  variables).  Mediante  el  metodo  de  MCO  fue 
posible  estimar  los  parametros  fi\,  y  o2.  Con  los  supuestos  del  modelo  clasico  de  regresion 
lineal  (MCRL)  demostramos  que  los  estimadores  de  dichos  parametros,  f}\,  fii  y  d2,  satisfacen 
varias  propiedades  estadisticas  deseables,  como  el  insesgamiento,  la  varianza  minima,  etc.  (Re- 
cuerde  la  propiedad  MELI.)  Observe  que,  en  vista  de  que  son  estimadores,  sus  valores  cambiaran 
de  muestra  en  muestra.  Por  consiguiente,  tales  estimadores  son  variables  aleatorias. 

Pero  la  estimacion  es  solo  la  mitad  de  la  batalla.  Las  pruebas  de  hipotesis  constituyen  la  otra 
mitad.  Tenga  presente  que,  en  el  analisis  de  regresion,  nuestro  objetivo  no  solo  consiste  en  esti¬ 
mar  la  funcion  de  regresion  muestral  (FRM),  sino  tambien  en  utilizarla  para  obtener  inferencias 
respecto  de  la  funcion  de  regresion  poblacional  (FRP),  como  destacamos  en  el  capitulo  2.  Asi, 
es  conveniente  saber  que  tan  cerca  esta  ft\  del  verdadero  valor  de  /L,  o  que  tan  cerca  esta  d2  del 
verdadero  a2.  Por  ejemplo,  en  el  ejemplo  3.2  estimamos  la  FRM  como  se  muestra  en  la  ecuacion 
(3.7.2).  Pero,  en  vista  de  que  la  regresion  se  basa  en  una  muestra  de  55  familias,  ^como  saber  si 
la  PMC  estimada  de  0.4368  representa  la  PMC  (verdadera)  en  la  poblacion  total? 

Por  tanto,  como  ji\,  P2  y  d2  son  variables  aleatorias,  es  necesario  averiguar  sus  distribuciones 
de  probabilidad,  pues  sin  conocerlas  no  es  posible  relacionarlas  con  sus  valores  verdaderos. 


4.1  Distribucion  de  probabilidad  de  las  perturbaciones  Uj 

Para  encontrar  las  distribuciones  de  probabilidad  de  los  estimadores  de  MCO,  procederemos 
como  sigue.  De  manera  especifica,  consideramos  P2.  Como  vimos  en  el  apendice  3A.2, 

h  =  Y.kiYi  (4-1-1) 

donde  kj  =  x2.  Sin  embargo,  como  se  supone  que  las  X  son  fijas,  o  no  estocasticas,  debido 

a  que  se  trata  de  un  analisis  de  regresion  condicional  (condicional  en  los  valores  fijos  de  X,),  la 
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ecuacion  (4.1.1)  muestra  que  p2  es  una  funcion  lineal  de  Y„  la  cual  se  supone  aleatoria.  Pero, 
como  Yt  —  f) i  +  p2Xt  +  Ui,  expresamos  (4.1.1)  como 

Pi  =  J2  k‘(P  i  +  hX  +  «<)  (4-1  -2) 

Debido  a  que  kh  las  betas,  y  Xj  son  fijas,  p2  es  a  fin  de  cuentas  una  funcion  lineal  de  la  variable 
aleatoria  u„  aleatoria  por  suposicion.  Por  tanto,  la  distribucion  de  probabilidad  de  fi2  (y  tambien 
de  Pi)  dependera  del  supuesto  que  se  hizo  respecto  de  la  distribucion  de  probabilidad  de  u,.  Y 
como  se  requiere  conocer  las  distribuciones  de  probabilidad  de  los  estimadores  de  MCO  para 
obtener  las  inferencias  sobre  sus  valores  poblacionales,  la  naturaleza  de  la  distribucion  de  proba¬ 
bilidad  de  Ui  desempena  un  papel  importante  en  las  pruebas  de  hipotesis. 

Debido  a  que  el  metodo  de  MCO  no  hace  ninguna  suposicion  respecto  de  la  naturaleza  pro- 
babilistica  de  u„  resulta  de  poca  ayuda  para  el  proposito  de  hacer  inferencias  sobre  la  FRP  me- 
diante  la  FRM,  a  pesar  del  teorema  de  Gauss-Markov.  Este  vacio  puede  llenarse  si  se  supone 
que  las  u  siguen  una  determinada  distribucion  de  probabilidad.  Por  razones  que  mencionaremos 
en  seguida,  en  el  contexto  de  regresion  se  supone,  por  lo  general,  que  las  u  tienen  la  distribucion 
de  probabilidad  normal.  Si  a  los  supuestos  del  modelo  clasico  de  regresion  lineal  (MCRL)  ana- 
lizados  en  el  capitulo  3  se  anade  el  supuesto  de  normalidad  para  u„  obtenemos  lo  que  se  conoce 
como  modelo  clasico  de  regresion  lineal  normal  (MCRLN). 


4.2  Supuesto  de  normalidad  de  it; 


El  modelo  clasico  de  regresion  lineal  normal  supone  que  cada  u,  esta  normalmente  distribuida 
con 


Media: 

E(uj ) =  0 

(4.2.1) 

Varianza: 

E[Ui  —  E(iij)]2  —  E(u 2)  —  o2 

(4.2.2) 

CO V(W;,  Uj ): 

E{[(m  —  E(ui)][uj  —  £(w/)]}  =  E(ui  uj)  =  0  i  7^  j 

(4.2.3) 

Estos  supuestos  se  expresan  en  forma  mas  compacta  como 

u,  ~  N(0,  a2) 


(4.2.4) 


donde  el  simbolo  ~  significa  distribuido  y  N  significa  distribucion  normal,  y  donde  los  ter- 
minos  entre  parentesis  representan  los  dos  parametros  de  la  distribucion  normal:  la  media  y  la 
varianza. 

Como  se  senala  en  el  apendice  A,  para  dos  variables  normalmente  distribuidas,  una  cova- 
rianza  o  correlacion  cero  significa  independencia  entre  las  dos  variables.  Por  consiguiente, 
con  el  supuesto  de  normalidad,  la  ecuacion  (4.2.4)  significa  que  m,  y  u,  no  solo  no  estan  correla- 
cionadas,  sino  que  tambien  estan  independientemente  distribuidas. 

Por  tanto,  (4.2.4)  se  escribe  como 


Ui  ~  NID(0,  a2) 


(4.2.5) 


donde  NID  significa  normal  e  independientemente  distribuido. 
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^Por  que  debe  formularse  el  supuesto  de  normalidad? 

(',Por  que  se  emplea  el  supuesto  de  normalidad?  Existen  diversas  razones. 

1.  Como  senalamos  en  la  seccion  2.5,  u,  representa  la  influencia  combinada  (sobre  la  variable 
dependiente)  de  un  gran  numero  de  variables  independientes  que  no  se  introdujeron  explici- 
tamente  en  el  modelo  de  regresion.  Como  explicamos,  se  espera  que  la  influencia  de  estas  va¬ 
riables  omitidas  o  descartadas  sea  pequena  y,  en  el  mejor  de  los  casos,  aleatoria.  Ahora,  gracias  al 
conocido  teorema  central  del  limite  (TCL)  en  estadistica  (veanse  los  detalles  en  el  apendice  A), 
se  puede  demostrar  que,  si  existe  un  gran  numero  de  variables  aleatorias  independientes  con  iden- 
tica  distribucion,  entonces,  con  pocas  excepciones,  la  distribucion  de  su  suma  tiende  a  ser  normal 
a  medida  que  se  incrementa  al  infinito  el  numero  de  tales  variables.1  Este  teorema  del  limite  cen¬ 
tral  es  el  que  proporciona  una  justification  teorica  para  el  supuesto  de  normalidad  de  u,. 

2.  Una  variante  del  teorema  del  limite  central  establece  que,  aunque  el  numero  de  variables 
no  sea  muy  grande,  o  si  estas  variables  no  son  estrictamente  independientes,  su  suma  puede  estar 
aun  normalmente  distribuida.2 

3.  Con  el  supuesto  de  normalidad,  se  derivan  con  facilidad  las  distribuciones  de  probabilidad 
de  los  estimadores  de  MCO,  pues,  como  se  explica  en  el  apendice  A,  una  propiedad  de  la  distri¬ 
bucion  normal  es  que  cualquier  funcion  lineal  de  variables  normalmente  distribuidas  estara 
tambien  normalmente  distribuida.  Como  ya  analizamos,  los  estimadores  de  MCO  (J>\  y  ft 2  son 
funciones  lineales  de  Por  consiguiente,  si  11 ,  esta  normalmente  distribuida,  tambien  lo  estan 

y  P2,  lo  cual  hace  que  la  tarea  de  probar  hipotesis  sea  muy  facil. 

4.  La  distribucion  normal  es  una  distribucion  comparativamente  sencilla  y  requiere  solo  dos 
parametros  (la  media  y  la  varianza);  es  muy  conocida  y  sus  propiedades  teoricas  se  han  estudiado 
con  amplitud  en  estadistica  matematica.  Ademas,  al  parecer  muchos  fenomenos  se  rigen  por  la 
distribucion  normal. 

5.  Si  trabajamos  con  una  muestra  finita  o  pequena,  con  datos  de  100  o  menos  observaciones, 
la  suposicion  de  normalidad  desempena  un  papel  relevante.  No  solo  contribuye  a  derivar  las 
distribuciones  de  probabilidad  exactas  de  los  estimadores  de  MCO,  sino  tambien  permite  utilizar 
las  pruebas  estadisticas  t,  F  y  y2  para  los  modelos  de  regresion.  Las  propiedades  estadisticas 
de  las  distribuciones  estadisticas  t,  F  y  y2  se  estudian  en  el  apendice  A.  Como  veremos  en  se- 
guida,  si  el  tamano  de  la  muestra  es  razonablemente  grande,  se  puede  flexibilizar  el  supuesto  de 
normalidad. 

6.  Por  ultimo,  en  muestras  gmndes,  los  estadisticos  t  y  F  tienen  aproximadamente  las  distri¬ 
buciones  de  probabilidad  de  t  y  F,  por  lo  que  las  pruebas  ty  F  que  se  basan  en  el  supuesto  de  que 
el  termino  de  error  esta  distribuido  normalmente  pueden  seguir  aplicandose  con  validez.3  En  la 
actualidad  hay  muchos  datos  transversales  y  de  series  de  tiempo  con  una  cantidad  relativamente 
grande  de  observaciones.  Por  tanto,  el  supuesto  de  normalidad  puede  no  ser  tan  crucial  en  con- 
juntos  grandes  de  datos. 

Advertencia:  Como  se  esta  “imponiendo”  el  supuesto  de  normalidad,  es  menester  encontrar 
aplicaciones  practicas  que  requieran  tamanos  pequenos  de  muestras  en  las  que  el  supuesto  de 
normalidad  resulte  apropiado.  Mas  adelante  se  realizaran  algunas  pruebas  para  hacer  precisa- 


1  Para  un  analisis  relativamente  sencillo  y  directo  de  este  teorema,  vease  Sheldon  M.  Ross,  Introduction  to 
Probability  and  Statistics  for  Engineers  and  Scientists,  2a.  ed.,  Harcourt  Academic  Press,  Nueva  York,  2000, 
pp.  193-194.  Una  excepcion  a  este  teorema  es  la  distribucion  de  Cauchy,  la  cual  no  tiene  media  ni  momen- 
tos  mas  altos.  Vease  M.  G.  Kendall  y  A.  Stuart,  The  Advanced  Theory  of  Statistics,  Charles  Griffin  &  Co.,  Lon- 
dres,  1960,  vol.  1,  pp.  248-249. 

2  Para  las  diversas  formas  del  teorema  central  del  limite,  vease  Harald  Cramer,  Mathematical  Methods  of  Sta¬ 
tistics,  Princeton  University  Press,  Princeton,  Nueva  Jersey,  1946,  cap.  1  7. 

3  Para  un  analisis  tecnico  de  este  punto,  vease  Christiaan  Heij  et  al.,  Econometric  Methods  with  Applications  in 
Business  and  Economics,  Oxford  University  Press,  Oxford,  2004,  p.  197. 
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mente  eso;  asimismo,  se  presentaran  situaciones  en  las  que  tal  vez  sea  inadecuado  el  supuesto  de 
normalidad.  No  obstante,  hasta  ese  momento,  consideraremos  valido  el  supuesto  de  normalidad 
por  las  razones  expuestas. 


4.3  Propiedades  de  los  estimadores  de  MCO 
segun  el  supuesto  de  normalidad 


Si  suponemos  que  w,  sigue  la  distribucion  normal,  como  en  (4.2.5),  los  estimadores  de  MCO  tie- 
nen  las  propiedades  que  se  mencionan  a  continuation  (el  apendice  A  ofrece  un  analisis  general 
de  las  propiedades  estadisticas  deseables  de  los  estimadores): 

1.  Son  insesgados. 

2.  Tienen  varianza  minima.  En  combination  con  1,  esto  significa  que  son  estimadores  inses¬ 
gados  con  varianza  minima,  o  eficientes. 

3.  Presentan  consistencia;  es  decir,  a  medida  que  el  tarnano  de  la  muestra  aumenta  indefini- 
damente,  los  estimadores  convergen  hacia  sus  verdaderos  valores  poblacionales. 

4.  (al  ser  una  funcion  lineal  de  u,)  esta  normalmente  distribuida  con 


Media: 

E(Pi)  =  Pi 

(4.3.1) 

var(ySi): 

2  2 

=  (3.3.3)  (4.3.2) 

0,  en  forma  mas  compacta, 

Pi' 

-N(pual) 

Entonces,  de  acuerdo  con 

las  propiedades  de  la  distribucion  normal,  la  variable  Z,  definida 

como 

Z 

 Pi -Pi 
ak 

(4.3.3) 

sigue  la  distribucion  normal  estandar,  es 

decir,  una  distribucion  normal  con  media  cero  y  va- 

rianza  unitaria  (=  1),  o 

Z 

~  N(0,  1) 

5.  p2  (al  ser  una  funcion  lineal  de  «,)  esta  normalmente  distribuida  con 

Media: 

E(Pi)  =  Pi 

(4.3.4) 

var(/§2): 

2  °2 

A  Ex,2 

=  (3.3.1)  (4.3.5) 

0,  en  forma  mas  compacta, 

Pi r 

-N(p2,al) 

Entonces,  como  en  (4.3.3), 

Z 

Pi- Pi 

(4.3.6) 

tambien  sigue  una  distribucion  normal  estandar. 


FIGURA  4.1 

Distribuciones  de  probabi- 
lidad  de  p\  y  fa. 
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Geometricamente,  las  distribuciones  de  probabilidad  de  p\  y  jd2  se  muestran  en  la  figura  4.1. 

6.  {n  —  2)(o2/g2)  esta  distribuida  como  la  distribucion  x2  (ji  cuadrada),  con  ( n  —  2)  gl.4 
Saber  esto  ayuda  a  hacer  inferencias  respecto  de  la  verdadera  a 2  a  partir  de  la  a2  estimada,  como 
veremos  en  el  capitulo  5.  (En  el  apendice  A  se  analizan  la  distribucion  ji  cuadrada  y  sus  propie- 
dades.) 

7.  (Pi,  Pi)  se  distribuyen  de  manera  independiente  respecto  de  d2.  La  importancia  de  lo  ante¬ 
rior  se  explica  en  el  siguiente  capitulo. 

8.  P\  y  Pi  tienen  varianza  minima  entre  todas  las  clases  de  estimadores  insesgados,  lineales  o 
no  lineales.  Este  resultado,  desarrollado  por  Rao,  es  muy  eficaz  porque,  a  diferencia  del  teorema 
de  Gauss-Markov,  no  se  limita  a  la  clase  de  estimadores  lineales.5  Por  tanto,  se  puede  decir  que 
los  estimadores  de  minimos  cuadrados  son  los  mejores  estimadores  insesgados  (MEI);  es  decir, 
tienen  varianza  minima  en  toda  la  clase  de  los  estimadores  insesgados. 

Para  resumir:  lo  importante  es  que  el  supuesto  de  normalidad  permite  derivar  las  distribu¬ 
ciones  de  probabilidad,  o  muestrales,  de  P\  y  Pi  (ambas  normales),  y  de  a2  (relacionada  con  ji 
cuadrada).  Como  veremos  en  el  capitulo  5,  esto  simplifica  la  tarea  de  establecer  intervalos  de 
confianza  y  pruebas  (estadisticas)  de  hipotesis. 

A  proposito,  observe  que  si  supone  que  zq  ~  N( 0,  er2),  Y„  al  ser  una  funcion  lineal  de  uit  posee 
tambien  una  distribucion  normal  con  una  media  y  una  varianza  dadas  por 


ElYd  =  Pi  +  p2X, 
var(lj)  =  a2 


En  forma  mas  ordenada, 


Y,  ~  N(pi  +  p2X„  er2) 


(4.3.7) 

(4.3.8) 


(4.3.9) 


4  La  prueba  de  este  enunciado  es  un  poco  intrincada.  Se  proporciona  una  fuente  accesible  para  la  demostra- 
cion  en  la  obra  de  Robert  V.  Hogg  y  Allen  T.  Craig,  Introduction  to  Mathematical  Statistics,  2a.  ed.,  Macmillan, 
Nueva  York,  1965,  p.  144. 

5  C.  R.  Rao,  Linear  Statistical  Inference  and  Its  Applications,  John  Wiley  &  Sons,  Nueva  York,  1 965,  p.  258. 
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4.4  Metodo  de  maxima  verosimilitud  (MV) 


Un  metodo  de  estimacion  puntual  con  algunas  propiedades  teoricamente  mas  fuertes  que  las  del 
metodo  de  MCO  es  el  metodo  de  maxima  verosimilitud  (MV).  Como  este  metodo  es  un  poco 
complicado,  se  analiza  en  el  apendice  de  este  capltulo.  Para  el  lector  que  solo  tiene  un  interes 
general,  baste  aclarar  que  si  se  supuso  que  u,  esta  normalmente  distribuida,  como  lo  hemos  hecho 
por  las  razones  expuestas,  los  estimadores  de  MV  y  MCO  de  los  coeficientes  de  regresion,  los  fi, 
son  identicos,  y  esto  es  valido  para  regresiones  simples  al  igual  que  para  las  regresiones  multi¬ 
ples.  El  estimador  de  MV  de  a2  es  J2  u2/n.  Este  estimador  es  sesgado,  en  tanto  que  el  estimador 
de  MCO  de  a2  =  u2/{n  —  2),  como  vimos,  es  insesgado.  Pero,  al  comparar  estos  dos  estima¬ 

dores  de  a2,  se  ve  que,  conforme  aumenta  el  tamano  de  la  muestra  n,  los  dos  estimadores  de  a2 
tienden  a  ser  iguales.  Por  tanto,  asintoticamente  (es  decir,  a  medida  que  n  crece  indefinidamente), 
el  estimador  MV  de  a 2  tambien  es  insesgado. 

Como  el  metodo  de  minimos  cuadrados  con  el  supuesto  adicional  de  normalidad  de  m,  propor- 
ciona  todas  las  herramientas  necesarias  para  llevar  a  cabo  la  estimacion  y  las  pruebas  de  hipotesis 
de  los  modelos  de  regresion  lineal,  no  existe  perdida  alguna  para  los  lectores  que  no  deseen  conti- 
nuar  revisando  el  metodo  de  maxima  verosimilitud  debido  a  su  cierta  complejidad  matematica. 

Resumen  y 
conclusiones 

1 .  En  este  capitulo  analizamos  el  modelo  clasico  de  regresion  lineal  normal  (MCRLN). 

2.  Este  modelo  difiere  del  modelo  clasico  de  regresion  lineal  (MCRL)  al  suponer  especifica- 
mente  que  el  termino  de  perturbacion,  u„  que  forma  parte  del  modelo  de  regresion,  esta 
normalmente  distribuido.  El  MCRL  no  requiere  ningiin  supuesto  sobre  la  distribucion  de 
probabilidad  de  «,■;  solo  requiere  que  el  valor  de  la  media  de  u,  sea  cero  y  su  varianza  sea  una 
constante  finita. 

3.  La  justificacion  teorica  del  supuesto  de  normalidad  es  el  teorema  central  del  limite. 

4.  Sin  el  supuesto  de  normalidad,  segun  los  otros  supuestos  analizados  en  el  capitulo  3,  el  teo¬ 
rema  de  Gauss-Markov  demostro  que  los  estimadores  de  MCO  son  MELI. 

5.  Con  el  supuesto  adicional  de  normalidad,  los  estimadores  de  MCO  no  solo  son  los  mejores 
estimadores  insesgados  (ME1)  sino  que  tambien  siguen  distribuciones  de  probabilidad  bien 
conocidas.  Los  estimadores  de  MCO  del  intercepto  y  de  la  pendiente  estan  normalmente  dis- 
tribuidos,  y  el  estimador  de  MCO  de  la  varianza  de  u,  (—  a2)  se  relaciona  con  la  distribucion 
ji  cuadrada. 

6.  En  los  capitulos  5  y  8  veremos  la  utilidad  de  estos  conocimientos  para  realizar  inferencias 
respecto  de  los  valores  de  los  parametros  poblacionales. 

7.  Una  alternativa  al  metodo  de  minimos  cuadrados  es  el  metodo  de  maxima  verosimilitud 
(MV).  Sin  embargo,  para  utilizar  este  metodo  se  debe  hacer  un  supuesto  sobre  la  distribucion 
de  probabilidad  del  termino  de  perturbacion  u,.  En  el  contexto  de  regresion,  el  supuesto  mas 
comun  es  que  las  u,  siguen  la  distribucion  normal. 

8.  Segun  el  supuesto  de  normalidad,  los  estimadores  de  MCO  y  MV  de  los  parametros  del  inter¬ 
cepto  y  de  la  pendiente  del  modelo  de  regresion  son  identicos.  Sin  embargo,  los  estimadores 
de  MCO  y  MV  de  la  varianza  de  w,  son  diferentes.  No  obstante,  en  muestras  grandes,  estos 
dos  estimadores  convergen. 

9.  Por  tanto,  el  metodo  de  MV  suele  recibir  el  nombre  de  metodo  de  muestras  grandes.  El  me¬ 
todo  MV  tiene  una  aplicacion  mas  extensa,  pues  se  aplica  tambien  a  modelos  de  regresion  no 
lineal  en  los  parametros.  En  este  ultimo  caso,  MCO  generalmente  no  se  utiliza.  Para  mayor 
informacion  sobre  esto,  vease  el  capitulo  14. 

10.  En  este  texto  recurriremos  en  gran  medida  al  metodo  de  MCO  por  razones  practicas:  a) 
en  comparacion  con  el  de  MV,  el  de  MCO  es  facil  de  aplicar;  b)  los  estimadores  de  MV  y 
MCO  de  y  /L  son  identicos  (lo  cual  se  cumple  tambien  en  regresion  multiple),  y  c)  aun  en 
muestras  moderadamente  grandes,  los  estimadores  de  MCO  y  MV  de  a2  no  difieren  consi- 
derablemente. 

Sin  embargo,  para  satisfacer  al  lector  con  formacion  matematica,  se  presenta  una  breve  intro- 
duccion  al  metodo  de  MV  en  el  apendice  de  este  capitulo  y  tambien  en  el  apendice  A. 
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4A.1  Estimacion  de  maxima  verosimilitud  del  modelo 
de  regresion  con  dos  variables 


Supongamos  que  en  el  modelo  con  dos  variables  Yt  =  f}\  +  p2Xt  +  w,-,  las  Y(  son  independientes  y  normal- 
mente  distribuidas  con  media  =  Pi  +  p2Xt  y  varianza  =  a2.  [Vease  la  ecuacion  (4.3.9).]  Como  resultado, 
la  funcion  de  densidad  de  probabilidad  conjunta  de  Y\,  Y2,  .  .  . ,  Y„,  dadas  las  medias  y  varianzas  anteriores, 
se  escribe  de  la  siguiente  forma: 


f(YuY1,...,Yn\Pi+p2Xua2) 


Pero  dada  la  independencia  de  las  Y,  esta  funcion  de  densidad  de  probabilidad  conjunta  se  escribe  como  el 
producto  de  las  n  funciones  de  densidad  individuals  como 


f(YuY2,...,Yn\Pi+p2Xi,(x2) 

=  f(Yi  |  Pi  +  p2Xi,  ff2)f(Y2  |  Pi  +  p2Xi,  a2)---  f{Yn  \  Pi  +  foXt,  a2)  (1) 


donde 


HYi~  Pi-  P2Xi)2 


(2) 


f(Yi)  =  — 7=  exp 


que  es  la  funcion  de  densidad  de  una  variable  normalmente  distribuida  con  media  y  varianza  dadas. 
( Nota :  exp  significa  e  elevado  a  la  potencia  de  la  expresion  indicada  por  {}.) 

A1  sustituir  la  ecuacion  (2)  por  cada  1)  en  ( 1)  se  tiene 


Si  se  conocen  o  estan  dadas  Yx,  Y2,  .  .  .  ,  Y„,  pero  no  se  conocen  px,  p2  y  a2,  la  funcion  en  (3)  se  llama 
funcion  de  verosimilitud,  denotada  con  FV(/ii,  p2,  a2)  y  escrita  como1 


F  X(pup2,a2) 


(4) 


exp 


El  metodo  de  maxima  verosimilitud,  como  lo  indica  el  nombre,  consiste  en  estimar  los  parametros 
desconocidos  de  manera  que  la  probabilidad  de  observar  las  Y dadas  sea  lo  mas  alta  (o  maxima)  posible.  Por 
consiguiente,  se  tiene  que  encontrar  el  maximo  de  la  funcion  en  la  ecuacion  (4).  Es  un  ejercicio  sencillo  de 
calculo  diferencial.  Para  la  diferenciacion,  es  mas  facil  expresar  (4)  en  terminos  de  la  funcion  logaritmo  o 
log  de  la  siguiente  manera.2  (Nota:  In  =  logaritmo  natural.) 


(Yt  -  Pi-  P2X,)2 


lit  ( 2rr )  -  - 


1  Por  supuesto,  si  se  conocen  fa,  p2  y  a2  pero  no  las  V),  la  ecuacion  (4)  representa  la  funcion  de  densidad 
de  probabilidad  conjunta:  la  probabilidad  de  observar  conjuntamente  las  V). 

2  Como  la  funcion  log  es  una  funcion  monotona,  In  FV  alcanzara  su  maximo  valor  en  el  mismo  punto 
que  FV. 
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A1  diferenciar  (5)  parcialmente  respecto  de  pi,  fc  y  cr2  se  obtiene 

(6) 

(7) 

(8) 

Igualamos  estas  ecuaciones  a  cero  (la  condition  de  primer  orden  para  la  optimization)  y  dejamos  que  P\, 
j3\  y  a2  denoten  los  estimadores  de  MV  para  obtener3 

liY'(Yl-pl-p2Xi)  =  0  (9) 

O z  z — 4 

- hXi)Xi  =0  (10) 


d  lnr  v  i 


9/?i 


9  InFV  1  ^ 

=  -  2  T(Yi  -fh-  fox.K-x,) 

9/1 2  O'2 


9  InFV  n  1  ^  , 

+  E^  -  ft  -  a**)2 


do2 


2  a2  2  a4 


Despues  de  simplificar,  las  ecuaciones  (9)  y  (10)  llevan  a 


E1 

/  =  n(St  +fj2J2  X, 

(12) 

=PiY.Xi+P2Y.x‘ 

(13) 

las  cuales  son  precisamente  las  ecuaciones  normales  de  la  teoria  de  minimos  cuadrados  obtenidas  en  (3.1.4) 
y  (3.1.5).  Por  tanto,  los  estimadores  de  MV,  las  /l,  son  los  mismos  que  los  estimadores  de  MCO,  los  /l,  dados 
en  (3.1.6)  y  (3.1.7).  Esta  igualdad  no  es  fortuita.  A1  examinar  la  verosimilitud  (5)  se  ve  que  el  ultimo  ter- 
mino  entra  con  signo  negativo.  Por  consiguiente,  la  maximization  de  (5)  equivale  a  la  minimization  de  este 
termino,  que  es  justo  el  enfoque  de  minimos  cuadrados,  como  se  aprecia  en  (3.1.2). 

A1  sustituir  los  estimadores  de  MV  (=  MCO)  en  (11)  y  simplificar,  se  obtiene  el  estimador  de  MV  de 
a2,  asi: 


d2  =  -  Ypt  -  fa  -  hXif 

=  i  -  01  -  A*i)2  (14) 


Se  deduce  de  (14)  que  el  estimador  de  MV  a2  difiere  del  estimador  de  MCO  a2  =  [1  /(«  —  2)]  ^  u2, 
el  cual,  como  se  demuestra  en  el  apendice  3A,  section  3A.5,  es  un  estimador  insesgado  de  a2.  Por  tan¬ 
to,  el  estimador  de  MV  de  a2  es  sesgado.  La  magnitud  de  este  sesgo  se  determina  facilmente  de  la  siguiente 
manera: 


3  Se  utiliza  el  sfmbolo  "  (tilde)  para  los  estimadores  de  MV  y  *  (acento  circunflejo)  para  los  estimadores  de 

MCO. 
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Tomamos  la  esperanza  matematica  de  ( 14)  en  ambos  lados  de  la  ecuacion  y  se  obtiene 


E(a2) 


a 


.2 


con  la  ecuacion  ( 1 6)  del  apendice  3  A,  (15) 

section  3A.5 


n 


lo  cual  demuestra  que  a2  esta  sesgado  hacia  abajo  (es  decir,  subestima  el  verdadero  a2)  en  muestras  peque- 


nas.  Pero  observe  que  a  medida  que  se  incrementa  indefinidamente  n,  el  tamano  de  la  muestra,  el  segundo 
termino  en  (15),  factor  de  sesgo,  tiende  a  ser  cero.  Por  consiguiente,  asintoticamente  (es  decir,  en  una 


muestra  muy  grande),  a2  tambien  es  insesgada.  Es  decir,  el  \imE(cr2)  =  a2  a  medida  que  n  — y  oo.  Se  puede 
demostrar  ademas  que  o'2  es  tambien  un  estimador  consistente,4  es  decir,  a  medida  que  n  aumenta  indefini¬ 
damente,  a2  converge  hacia  su  verdadero  valor  a2. 


4A.2  Estimacion  de  maxima  verosimilitud  del  gasto 
en  alimentos  en  India 


Regresemos  al  ejemplo  3.2  y  la  ecuacion  (3.7.2),  que  representa  la  regresion  del  gasto  dedicado  a  los 


alimentos  del  gasto  total  realizado  por  55  familias  rurales  de  India.  Como  al  suponer  la  normalidad,  los  es- 


timadores  de  MCO  y  ML  de  los  coeficientes  de  regresion  son  iguales,  los  estimadores  de  MV  resultan  como 
$1  =  Pi  =  94.2087  y  Pi  =  Pi  =  0.4368.  El  estimador  de  MCO  de  a 2  es  a2  =  4  469.6913,  pero  el  estimador 
de  MV  es  a2  =  4  407.1563,  por  lo  que  es  mas  pequeno  que  el  estimador  de  MCO.  Como  se  observa,  en 
muestras  pequenas  el  estimador  de  MV  esta  sesgado  hacia  abajo;  es  decir,  subestima  en  promedio  la  ver- 
dadera  varianza  a 2  Por  supuesto,  como  es  de  esperarse,  conforme  crezca  la  muestra,  la  diferencia  entre  los 
dos  estimadores  se  reducira.  Al  sustituir  los  valores  de  los  estimadores  en  la  fruition  log  de  verosimilitud, 
resulta  el  valor  de  —308.1625.  Si  se  desea  maximizar  el  valor  de  FV,  solo  se  calcula  el  antilogaritmo  de 
—308.1625.  Ningun  otro  valor  de  los  parametros  dara  una  probabilidad  mas  alta  de  obtener  la  muestra  que 
se  utilizo  en  el  analisis. 


Apendice  4A  Ejercicios 


4. 1 .  “Si  dos  variables  aleatorias  son  estadisticamente  independientes,  el  coeficiente  de  correlation  entre  las 
dos  es  cero.  Pero  lo  contrario  no  necesariamente  es  cierto;  es  decir,  una  correlacion  de  cero  no  implica 
independence  estadistica.  Sin  embargo,  cuando  dos  variables  estan  normalmente  distribuidas,  una 
correlacion  cero  necesariamente  implica  independencia  estadistica.”  Verifique  esta  afirmacion  para 
la  siguiente  funcion  de  densidad  de  probabilidad  conjunta  de  dos  variables  normalmente  distribuidas, 
Y\  y  Y2  (esta  funcion  de  densidad  de  probabilidad  conjunta  se  conoce  como  funcion  de  densidad  de 
probabilidad  normal  bivariada): 


x 


4Vease  el  apendice  A  para  un  analisis  general  de  las  propiedades  de  los  estimadores  de  maxima  verosimi¬ 


litud,  asf  como  para  la  distincion  entre  insesgamiento  asintotico  y  consistencia.  En  terminos  generales,  en  el 
insesgamiento  asintotico  se  trata  de  encontrar  el  Ifm  £(<r2)  cuando  n  tiende  a  infinite,  donde  n  es  el  tamano 
de  la  muestra  en  la  que  se  basa  el  estimador;  en  la  consistencia,  se  trata  de  averiguar  como  se  comporta  cr2 
a  medida  que  n  aumenta  indefinidamente.  Observe  que  la  propiedad  de  insesgamiento  es  una  propiedad 
del  muestreo  repetido  de  un  estimador  basado  en  una  muestra  de  un  tamano  dado,  mientras  que  la  consis¬ 
tencia  se  relaciona  con  el  comportamiento  del  estimador  a  medida  que  aumenta  indefinidamente  el  tamano 
de  la  muestra. 
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donde:  =  media  de  Y\ 

fi2  =  media  de  Y2 
cs\  =  desviacion  estandar  de  Y\ 

<y2  =  desviacion  estandar  de  Y2 
p  =  coeficiente  de  correlacion  entre  Y\  y  Y2 

4.2.  A1  aplicar  las  condiciones  de  segundo  orden  para  la  optimizacion  (es  decir,  la  prueba  de  la  segunda  de- 
rivada),  demuestre  que  los  estimadores  de  MV  de  /Si,  p2  y  a1,  que  se  obtienen  al  resolver  las  ecuaciones 
(9),  (10)  y  (1 1),  en  realidad  maximizan  la  funcion  de  verosimilitud  (4). 

4.3.  Una  variable  aleatoria  V sigue  la  distribucion  exponential  si  presenta  la  siguiente  funcion  de  densidad 
de  probabilidad  (FDP): 

f(X)  =  ( 1  /9)e~x/e  para  X>0 
=  0  en  otro  caso 

donde  9  >  0  es  el  parametro  de  la  distribucion.  Con  el  metodo  de  MV  demuestre  que  el  estimador  de 
MV  de  9  es  9  =  ^ Xi/n ,  donde  n  es  el  tamano  de  la  muestra.  Es  decir,  demuestre  que  el  estimador 
de  MV  de  6  es  la  media  muestral  X. 

4.4.  Suponga  que  el  resultado  de  un  experimento  se  clasifica  como  un  exito  o  un  fracaso.  Sea X=  1  cuando 
el  resultado  es  un  exito  y  X=Q  cuando  es  un  fracaso;  la  densidad  de  probabilidad,  o  masa,  funcion  de 
X  esta  dada  por 


p(X=0)  =  l-p 
p(X=  1)  =  p,0<p  <  1 

^Cual  es  el  estimador  de  maxima  verosimilitud  de  p,  la  probabilidad  de  exito? 


Capitulo 


Regresion  con  dos 
variables:  estimacion 
por  intervalos  y  pruebas 
de  hipotesis 

Cuidado  con  comprobar  demasiadas  hipotesis:  cuanto  mas  se  torturen  los  datos,  mas  probable  sera 
que  confiesen,  pero  la  confesion  obtenida  bajo  presion  puede  no  ser  admisible  en  el  tribunal  de  la 
opinion  cientlfica.1 

Como  senalamos  en  el  capitulo  4,  la  estimacion  y  las  pruebas  de  hipotesis  constituyen  las  dos 
ramas  principales  de  la  estadistica  clasica.  La  teoria  de  la  estimacion  consta  de  dos  partes:  esti¬ 
macion  puntual  y  estimacion  por  intervalos.  En  los  dos  capitulos  anteriores  estudiamos  a  fondo  la 
estimacion  puntual,  en  donde  se  introdujeron  los  metodos  MCO  y  MV  de  la  estimacion  puntual. 
En  este  capitulo  consideraremos  primero  la  estimacion  por  intervalos  y  luego  trataremos  el  tema 
de  las  pruebas  de  hipotesis,  muy  relacionado  con  la  estimacion  por  intervalos. 


5.1  Requisites  estadfsticos 

Antes  de  exponer  el  mecanismo  preciso  para  la  construccion  de  los  intervalos  de  confianza  y  de 
las  pruebas  de  hipotesis  estadisticas,  se  supone  que  el  lector  esta  familiarizado  con  los  concep- 
tos  fundamentales  de  probabilidad  y  estadistica.  Aunque  el  apendice  A  no  sustituye  un  curso 
basico  de  estadistica,  si  proporciona  sus  elementos  esenciales  con  los  cuales  el  lector  debera 
estar  totalmente  familiarizado.  Conceptos  importantes,  como  probabilidad,  distribuciones  de 
probabilidad,  errores  tipo  1  y  tipo  II,  nivel  de  significance,  potencia  de  una  prueba  esta¬ 
distica  e  intervalos  de  confianza  son  cruciales  para  entender  el  material  de  este  capitulo  y  los 
siguientes. 


1  Stephen  M.  Stigler,  "Testing  Hypothesis  or  Fitting  Models?  Another  Look  at  Mass  Extinctions",  en 
Matthew  H.  Nitecki  y  Antoni  Hoffman,  eds.,  Neutral  Models  in  Biology,  Oxford  University  Press,  Oxford, 
1987,  p.  148. 
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5.2  Estimacion  por  intervalos:  algunas  ideas  basicas 


Para  poner  en  orden  las  ideas,  consideremos  el  ejemplo  de  los  salarios  y  el  nivel  de  escolaridad 
del  capitulo  3.  La  ecuacion  (3.6.1)  muestra  que  el  incremento  promedio  estimado  del  salario 
medio  por  hora  relacionado  con  un  ano  de  aumento  en  la  escolaridad  (P2)  es  de  0.7240,  que 
constituye  una  cifra  estimada  (puntual)  del  valor  poblacional  desconocido  Pi-  qQue  tan  confiable 
es  esta  estimacion?  Como  mencionamos  en  el  capitulo  3,  debido  a  las  fluctuaciones  muestra- 
les,  es  probable  que  una  sola  estimacion  difiera  del  valor  verdadero,  aunque  en  un  mues- 
treo  repetido  se  espera  que  el  promedio  de  los  valores  sea  igual  al  valor  verdadero.  [Nota: 
E(P2)  —  p2.]  Ahora,  en  estadistica,  la  confiabilidad  de  un  estimador  puntual  se  mide  por  su  error 
estandar.  Por  tanto,  en  lugar  de  depender  de  un  solo  estimador  puntual,  se  puede  construir  un 
intervalo  alrededor  del  estimador  puntual,  por  ejemplo,  dentro  de  dos  o  tres  errores  estandar  a 
cada  lado  del  estimador  puntual,  tal  que  este  intervalo  tenga,  por  ejemplo,  95%  de  probabilidad 
de  incluir  al  verdadero  valor  del  parametro.  Esta  es,  a  grandes  rasgos,  la  idea  basica  de  la  esti¬ 
macion  por  intervalos. 

Para  ser  mas  especifico,  supongamos  que  se  desea  encontrar  que  tan  “cerca”  esta,  por  ejemplo, 
P2  de  p2.  Con  este  fin,  se  trata  de  encontrar  dos  numeros  positivos,  8  y  a,  este  ultimo  situado  entre 
0  y  1 ,  de  modo  que  la  probabilidad  de  que  el  intervalo  aleatorio  (p2  —  8,  p2  +  8 )  contenga  al 
verdadero  p2  sea  1  —  a.  Simbolicamente, 


Pr  (Pi  ~  8  <  p2  <  p2  +  8)  =  1  -  a  (5.2.1) 

Tal  intervalo,  si  existe,  se  conoce  como  intervalo  de  confianza;  a  1  —  a  se  le  denomina  coefi- 
ciente  de  confianza;  y  a  (0  <  a  <  1)  se  conoce  como  nivel  de  significancia.2  Los  extremos  del 
intervalo  de  confianza  se  conocen  como  limites  de  confianza  (tambien  denominados  valores 
criticos),  con  p2  —  8  como  limite  de  confianza  inferior  y  p2  +  8  como  limite  de  confianza  su¬ 
perior.  Observe  que,  en  la  practica,  a  y  1  —  a  suelen  expresarse  en  forma  porcentual  como  100a 
y  100(1  -  a)%. 

La  ecuacion  (5.2.1)  muestra  que  un  estimador  de  intervalo,  en  contraste  con  un  estimador 
puntual,  es  un  intervalo  construido  de  manera  que  tenga  una  probabilidad  especifica  1  —  a  de 
contener  en  sus  limites  al  valor  verdadero  del  parametro.  Por  ejemplo,  si  a  —  0.05,  o  5%,  (5.2.1) 
debe  leerse:  la  probabilidad  de  que  el  intervalo  (aleatorio)  que  alii  aparece  incluya  al  verdadero 
P2  es  de  0.95,  o  95%.  El  estimador  por  intervalo  proporciona  asi  una  gama  de  valores  dentro  de 
los  cuales  puede  encontrarse  el  verdadero  p2. 

Es  muy  importante  conocer  los  siguientes  aspectos  de  la  estimacion  por  intervalos: 

1.  La  ecuacion  (5.2.1)  no  afirma  que  la  probabilidad  de  que  p2  se  encuentre  entre  los  limites 
dados  sea  1  —  a.  Como  se  supone  que  p2,  aunque  se  desconoce,  es  un  numero  fijo,  se  dice  que 
esta  o  no  esta  dentro  del  intervalo.  La  ecuacion  (5.2.1)  establece  que,  al  utilizar  el  metodo  des- 
crito  en  este  capitulo,  la  probabilidad  de  construir  un  intervalo  que  contenga  p2  es  1  —  a. 

2.  El  intervalo  (5.2. 1 )  es  un  intervalo  aleatorio;  es  decir,  variara  de  una  muestra  a  la  siguiente 
debido  a  que  se  basa  en  p2,  el  cual  es  aleatorio.  (pPcr  que?) 

3.  Como  el  intervalo  de  confianza  es  aleatorio,  los  enunciados  probabilisticos  que  le  corres- 
ponden  deben  entenderse  en  un  sentido  de  largo  plazo,  es  decir,  para  muestreo  repetido.  Mas 


2  Tambien  conocida  como  probabilidad  de  cometer  un  error  tipo  I.  Un  error  tipo  I  consiste  en  recha- 
zar  una  hipotesis  verdadera,  mientras  que  el  error  tipo  II  consiste  en  aceptar  una  hipotesis  falsa.  (Este  tema 
se  analiza  con  mayor  detalle  en  el  apendice  A.)  El  sfmbolo  a  se  conoce  tambien  como  tamano  de  la 
prueba  (estadistica). 
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especificamente,  (5.2.1)  significa:  si  se  construyen  muchos  intervalos  de  confianza  como  el  an¬ 
terior  con  base  probabilistica  de  1  —  a,  a  la  larga,  en  promedio,  tales  intervalos  contendran,  en 
1  —  a  de  los  casos,  el  valor  verdadero  del  parametro. 

4.  Como  mencionamos  en  2,  el  intervalo  (5.2.1 )  es  aleatorio  siempre  y  cuando  p2  sea  desco- 
nocido.  Sin  embargo,  una  vez  que  se  tenga  una  muestra  especifrca  y  se  obtenga  un  valor  numerico 
especifrco  de  $2,  el  intervalo  (5.2.1)  deja  de  ser  aleatorio,  y  queda  entonces  fijo.  En  este  caso, 
no  se  puede  hacer  la  afirmacion  probabilistica  (5.2.1);  es  decir,  no  se  puede  afirmar  que  la  pro- 
babilidad  de  que  un  intervalo  fijo  dado  incluya  al  verdadero  p2  sea  1  —  a.  En  esta  situacion,  p2 
esta  en  el  intervalo  fijo  o  fuera  de  el.  Por  consiguiente,  la  probabilidad  sera  1  o  0.  Por  tanto,  en  el 
ejemplo  de  salarios  y  nivel  de  escolaridad,  si  el  intervalo  de  confianza  a  95%  se  obtuviera  como 
(0.5700  <  p2  <  0.8780),  como  demostraremos  en  breve  en  la  ecuacion  (5.3.9),  no  se  puede 
afirmar  que  la  probabilidad  de  que  este  intervalo  incluya  al  verdadero  fi2  sea  de  95%.  Esa  proba¬ 
bilidad  es  1  o  0. 

^Como  se  construyen  los  intervalos  de  confianza?  De  la  exposition  anterior  se  espera  que 
si  se  conocen  las  distribuciones  muestrales  o  de  probabilidad  de  los  estimadores,  se  puedan 
hacer  afirmaciones  sobre  intervalos  de  confianza  como  (5.2.1).  En  el  capitulo  4  vimos  que,  con  el 
supuesto  de  normalidad  de  las  perturbaciones  w„  los  estimadores  de  MCO  p\  y  fi2  estan  tambien 
normalmente  distribuidos,  y  que  el  estimador  de  MCO,  ct2,  se  relaciona  con  la  distribucion  x2 
(ji  cuadrada).  Entonces,  parece  que  la  labor  de  construir  intervalos  de  confianza  es  muy  sencilla. 
jY,  de  hecho,  lo  es! 


5.3  Intervalos  de  confianza  para  los  coeficientes  de  regresion  /?i  y  f$2 

Intervalo  de  confianza  para  p2 

En  el  capitulo  4,  section  4.3,  demostramos  que  con  el  supuesto  de  normalidad  de  u„  los  estima¬ 
dores  de  MCO  P\y  P2  son  en  si  mismos  normalmente  distribuidos  con  medias  y  varianzas  alii 
establecidas.  Por  consiguiente,  por  ejemplo,  la  variable 


Pi  ~  Pi 

se  (p2) 

(Pi  -  p2)^ 


(5.3.1) 


como  se  anoto  en  (4.3.6),  es  una  variable  normal  estandarizada.  Por  tanto,  parece  que  se  puede 
utilizar  la  distribucion  normal  para  hacer  afirmaciones  probabilisticas  sobre  p2,  siempre  que  se 
conozca  la  verdadera  varianza  poblacional  a2.  Si  se  conoce  cr2,  una  propiedad  importante  de  una 
variable  normalmente  distribuida  con  media  u  y  varianza  a2  es  que  el  area  bajo  la  curva  normal 
entre  ju  ±  a  es  cercana  a  68%,  que  entre  /.i  ±  2cr  es  alrededor  de  95%,  y  que  entre  los  limites 
/.i  ±  3er  el  area  es  cercana  a  99.7%. 

Pero  pocas  veces  se  conoce  ct2  y,  en  la  practica,  esta  determinada  por  el  estimador  insesgado 
a2.  Si  se  reemplaza  a  por  ct,  (5.3.1)  puede  escribirse  asi 


t 


P2  —  p2  Estimador  —  Parametro 

se  ( p2 )  Error  estandar  estimado  del  estimador 


(Pi  -  p2)Je7? 


(5.3.2) 


a 


110 


Parte  Uno  Modelos  de  regresion  uniecuacionales 


donde  ee  (ft2)  se  refiere  ahora  al  error  estandar  estimado.  Se  demuestra  (vease  el  apendice  5  A, 
section  5A.2)  que  la  variable  t,  asi  definida,  sigue  la  distribucion  t  con  n  —  2  gl.  [Note  la  diferen- 
cia  entre  (5.3.1)  y  (5.3.2).]  Por  consiguiente,  en  lugar  de  utilizar  la  distribucion  normal,  se  puede 
utilizar  la  distribucion  t  para  construir  un  intervalo  de  confianza  para  ft2  de  la  siguiente  forma: 

Pr  (-4/2  <  t  <  4/ 2)  =  1  -  a  (5.3.3) 

donde  el  valor  t  en  el  centra  de  esta  doble  desigualdad  es  el  valor  t  dado  por  (5.3.2),  y  donde  4/ 2 
es  el  valor  de  la  variable  t  obtenida  de  la  distribucion  t  para  un  nivel  de  significance  de  a/2  y 
n  —  2  gl;  a  menudo  se  denomina  el  valor  critico  1  a  un  nivel  de  significance  a/2.  A I  sustituir 
(5.3.2)  en  (5.3.3)  se  obtiene 


Pr 


^  Pi  ~  P2 

'4/2  5  - „ —  <  4/2 

ee(/J2) 


=  1—0! 


(5.3.4) 


Reorganizamos  (5.3.4)  y  obtenemos 


Pr  \ft2  -  4/2  ee  (ft2)  <Pi<ft2  +  4/2  ee  (fi2)]  =  1  -  a  (5.3.5)3 


La  ecuacion  (5.3.5)  proporciona  un  intervalo  de  confianza  para  ft2  de  100  (1  —  a)%,  que  se 
escribe  en  forma  mas  compacta  como 

Intervalo  de  confianza  para  ft>2  a  100(1  —  «)%: 

ft2  ±  4/2  ee(y62)  (5.3.6) 

Mediante  argumentacion  analoga  y  con  (4.3.1)  y  (4.3.2),  se  escribe: 


Pr  [ft\  -  4/2  ee  (^1)  <  <  fa  +  ta/2  ee  (/Si)]  =  1  -  a  (5.3.7) 


o,  en  forma  mas  compacta, 

Intervalo  de  confianza  para  ft\  a  100(1  —  a)%: 

/5,  ±4/2ee(di)  (5.3.8) 

Observe  un  rasgo  importante  de  los  intervalos  de  confianza  dados  en  (5.3.6)  y  (5.3.8):  en 
ambos  casos  la  amplitud  del  inten’alo  de  confianza  es  proporcional  al  error  estandar  del  estima- 
dor.  Es  decir,  entre  mas  grande  sea  el  error  estandar,  mas  amplio  sera  el  intervalo  de  confianza. 
Expresado  de  otra  forma,  mientras  mas  grande  sea  el  error  estandar  del  estimador,  mayor  sera  la 
incertidumbre  de  estimar  el  verdadero  valor  del  parametro  desconocido.  Asi,  el  error  estandar  de 
un  estimador  suele  describirse  como  una  medida  de  la  precision  del  estimador  (es  decir,  con  que 
precision  mide  el  estimador  al  verdadero  valor  poblacional). 


3  Algunos  autores  prefieren  escribir  (5.3.5)  con  los  gl  indicados  explfcitamente.  Por  tanto,  escribinan 
Pr  [p2  -  t(n~2),o,/2  ee  C/§2)  <  p2  <  p2  +  t(n~2)a/2  ee  (/§2>]  =  1  -  O' 

Pero,  por  simplicidad,  utilizaremos  la  notacion  hasta  ahora  expuesta;  el  contexto  aclara  los  gl  adecuados. 
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De  vuelta  al  ejemplo  de  regresion  del  capitulo  3  (seccion  3.6)  del  salario  promedio  por  hora 
(7)  y  el  nivel  de  escolaridad  ( X ),  recuerde  que  en  la  tabla  3.2  descubrimos  que  fi2  —  0.7240; 
ee  (p2)  =  0.0700.  Como  hay  13  observaciones,  los  grados  de  libertad  (gl)  son  1 1.  Si  suponemos 
que  a  —  5%,  es  decir,  un  coeficiente  de  confianza  a  95%,  entonces  la  tabla  t  muestra  que  para 
1 1  gl  el  valor  critico  t„/2  =  2.201.  Al  sustituir  estos  valores  en  (5.3.5),  el  lector  debe  verificar  que 
el  intervalo  de  confianza  para  ft2  a  95%  sea  el  siguiente:* * 4 

0.5700  <  p2  <  0.8780  (5.3.9) 


O,  con  la  ecuacion  (5.3.6),  es 


0.7240  ±  2.201(0.0700) 


es  decir, 


0.7240  ±0.1540  (5.3.10) 

La  interpretation  de  este  intervalo  de  confianza  es:  Dado  el  coeficiente  de  confianza  de  95%, 
en  95  de  cada  100  casos,  los  intervalos  como  la  ecuacion  5.3.9  contendran  al  verdadero  valor  de 
Pi-  Pero,  como  ya  advertimos,  no  se  puede  afirmar  que  la  probabilidad  de  que  el  intervalo  espe- 
cifico  de  la  ecuacion  (5.3.9)  contenga  al  verdadero  fi2  sea  de  95%,  porque  este  intervalo  es  ahora 
fijo  y  no  aleatorio;  por  consiguiente,  fJ>2  se  encontrara  o  no  dentro  de  el:  la  probabilidad  de  que  el 
intervalo  fijo  especifico  incluya  al  verdadero  valor  de  fi2  es  por  consiguiente  1  o  0. 

Segun  la  ecuacion  (5.3.7)  y  los  datos  de  la  tabla  3.2,  el  lector  puede  verificar  facilmente  que  el 
intervalo  de  confianza  para  fi\  a  95%  en  este  ejemplo  es: 

-1.8871  <Pi<  1.8583  (5.3.11) 

Una  vez  mas,  se  debe  tener  cuidado  al  interpretar  este  intervalo  de  confianza.  En  95  de  cada 
100  casos,  los  intervalos  como  la  ecuacion  (5.3.1 1)  contendran  al  verdadero  valor  de  fiu  la  pro¬ 
babilidad  de  que  este  intervalo  fijo  en  particular  incluya  al  verdadero  es  de  1  o  0. 


Intervalo  de  confianza  para  y  simultaneamente 

Hay  ocasiones  en  que  se  necesita  construir  un  intervalo  de  confianza  conjunto  para  fi\  y  fi2  tal 
que,  para  un  coeficiente  de  confianza  (1  —  a)  de,  por  ejemplo,  95%,  tanto  como  fi2  caigan 
al  mismo  tiempo  dentro  de  ese  intervalo.  Como  este  tema  es  complejo,  el  lector  quiza  desee  con- 
sultar  referencias  apropiadas.5  (Estudiaremos  brevemente  este  tema  en  los  capitulos  8  y  10.) 


5.4  Intervalo  de  confianza  para  cr2 


Como  senalamos  en  el  capitulo  4,  seccion  4.3,  segun  el  supuesto  de  normalidad,  la  variable 


X2  =  («  -  2)  — 


(5.4.1) 


4  Debido  a  errores  de  redondeo  en  la  tabla  3.2,  las  respuestas  que  se  proporcionan  a  continuacion  pueden 
no  coincidir  exactamente  con  las  obtenidas  mediante  un  paquete  estadfstico. 

5  Hay  un  analisis  accesible  en  John  Neter,  William  Wasserman  y  Michael  H.  Kutner,  Applied  Linear  Regression 
Models,  Richard  D.  Irwin,  Homewood,  Illinois,  1983,  capftulo  5. 
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FIGURA  5.1 

Intervalo  de  confianza  a 
95%  para  /2  (1 1  gl). 


fix2) 


sigue  la  distribucion  x2  con  n  —  2  gl.6  Por  tanto,  con  la  distribucion  y1  se  establece  el  intervalo 
de  confianza  para  a2 

Pr  (xf— a/2  <  X2  <  xl/i)  =  1  -  a  (5.4.2) 

donde  el  valor  de  x2  en  medio  de  esta  doble  desigualdad  es  igual  a  la  planteada  en  (5.4.1),  y  donde 
X2-a/2  y  Xu/ 2  son  d°s  val°res  de  x2  (los  valores  criticos  x2)  obtenidos  de  la  tabla  ji  cuadrada  para 
n  —  2  gl  de  manera  que  ellos  cortan  100(q!/2)%  de  las  areas  de  las  colas  de  la  distribucion  x2, 
como  se  muestra  en  la  figura  5.1. 

A1  sustituir  x2  de  (5.4.1)  en  (5.4.2)  y  reorganizar  los  terminos,  obtenemos 


Pr 


( n  —  2)^—  <  cr"  <  (n  —  2) 
Xa/2 


Xl—a/2 


=  1 


(5.4.3) 


que  da  el  intervalo  de  confianza  a  100(1  —  a)%  para  a2. 

Continuamos  con  el  ejemplo  de  salarios  y  nivel  de  escolaridad:  se  encontro  en  la  tabla  3.2 
que  para  los  datos  se  tiene  a2  =  0.8936.  Si  seleccionamos  a  de  5%,  la  tabla  ji  cuadrada  para  1 1 
gl  da  los  siguientes  valores  criticos:  Xo  025  =  21.9200  y  X0.975  =  3.8157.  Estos  valores  muestran 
que  la  probabilidad  de  que  un  valor  ji  cuadrada  sea  superior  a  21.9200  es  2.5%,  y  la  de  3.8157  es 
97.5%.  Por  consiguiente,  el  intervalo  entre  estos  dos  valores  es  el  intervalo  de  confianza  para  y2 
a  95%,  como  se  aprecia  en  el  diagrama  de  la  figura  5.1.  (Observe  la  caracteristica  asimetrica  de 
la  distribucion  ji  cuadrada.) 

A1  sustituir  los  datos  del  ejemplo  en  (5.4.3),  el  lector  verificara  que  el  intervalo  de  confianza 
para  a2  a  95%  es  el  siguiente: 


0.4484  <  cr2  <  2.5760  (5.4.4) 

La  interpretacion  de  este  intervalo  es  la  siguiente:  Si  establecemos  limites  de  confianza  a  95% 
sobre  a2  y  afirma  a  priori  que  entre  estos  limites  caera  el  verdadero  ct2,  acertaremos,  a  la  larga, 
95%  de  las  veces. 


6  Para  una  demostracion,  vease  Robert  V.  Hogg  y  Allen  T.  Craig,  Introduction  to  Mathematical  Statistics, 
2a.  ed.,  Macmillan,  Nueva  York,  1965,  p.  144. 
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5.5  Prueba  de  hipotesis:  comentarios  generates 


Tras  estudiar  el  problema  de  la  estimacion  puntual  y  por  intervalos,  ahora  consideraremos  el  tema 
de  las  pruebas  de  hipotesis.  En  esta  seccion  analizaremos  brevemente  algunos  aspectos  genera- 
les  de  este  tema;  el  apendice  A  proporciona  algunos  detalles  adicionales. 

El  problema  de  las  pruebas  de  hipotesis  estadisticas  puede  plantearse  sencillamente  de  la  si- 
guiente  manera:  yes  compatible  o  no  lo  es  una  observacion  o  un  hallazgo  dados,  segiin  algunas 
hipotesis planteadas?  La  palabra  “compatible”  se  utiliza  aqui  en  el  sentido  de  que  la  observacion 
es  lo  “bastante”  cercana  al  valor  hipotetico,  de  forma  que  no  se  rechaza  la  hipotesis  planteada. 
Asi,  si  alguna  teoria  o  experiencia  previa  lleva  a  creer  que  el  verdadero  coeficiente  de  la  pendiente 
$2  en  el  ejemplo  salarios  y  nivel  de  escolaridad  es  la  unidad,  ^es  el  2  =  0.724  obtenido  de  la 
muestra  de  la  tabla  3.2  consistente  con  la  hipotesis  planteada?  De  ser  asi,  no  se  rechaza  la  hipo¬ 
tesis;  de  lo  contrario,  se  puede  rechazar. 

En  el  lenguaje  de  estadistica,  la  hipotesis  planteada  se  conoce  como  hipotesis  nula,  y  se  denota 
con  el  simbolo  Hq.  La  hipotesis  nula  suele  probarse  frente  a  una  hipotesis  alternativa  (tambien  co- 
nocida  como  hipotesis  mantenida)  denotada  con  ll\,  que  puede  plantear,  por  ejemplo,  que  el 
verdadero  es  diferente  a  la  unidad.  La  hipotesis  alternativa  puede  ser  simple  o  compuesta.7 
Por  ejemplo,  Hp.fa.  —  1-5  es  una  hipotesis  simple,  pero  Hp.fc  ^  1.5  es  una  hipotesis  compuesta. 

La  teoria  de  pruebas  de  hipotesis  se  refiere  al  diseno  de  reglas  o  procedimientos  que  permitan 
decidir  si  se  rechaza  o  no  la  hipotesis  nula.  Hay  dos  metodos  mutuamente  complementarios  para 
disenar  tales  reglas:  el  intervalo  de  confianza  y  la  prueba  de  signiftcancia.  Estos  dos  enfoques 
plantean  que  la  variable  (el  estadistico  o  estimador)  en  consideracion  sigue  alguna  distribucion 
de  probabilidad  y  que  la  prueba  de  hipotesis  establece  afirmaciones  sobre  el  (los)  valor(es)  del 
(los)  parametro(s)  de  tal  distribucion.  Por  ejemplo,  sabemos  que,  con  el  supuesto  de  normalidad, 
P2  esta  normalmente  distribuida  con  media  igual  a  P2  y  varianza  dada  por  (4.3.5).  Si  formulamos 
la  hipotesis  de  que  —  1,  se  hace  una  afirmacion  sobre  uno  de  los  parametros  de  la  distribucion 
normal,  por  ejemplo,  la  media.  La  mayoria  de  las  hipotesis  estadisticas  que  se  encuentran  en  este 
texto  sera  de  este  tipo,  con  afirmaciones  sobre  uno  o  mas  valores  de  los  parametros  de  algunas 
distribuciones  de  probabilidad  supuestas,  como  la  normal,  F,  t  o  yj .  En  las  dos  secciones  siguien- 
tes  estudiaremos  la  forma  de  lograrlo. 


5.6  Pruebas  de  hipotesis:  metodo  del  intervalo  de  confianza 

Prueba  bilateral  o  de  dos  colas 

Para  ilustrar  el  enfoque  del  intervalo  de  confianza,  una  vez  mas  nos  referiremos  al  ejemplo 
de  salarios  y  nivel  de  escolaridad.  Por  los  resultados  de  la  regresion  obtenidos  en  la  ecuacion 
(3.6.1),  sabemos  que  el  coeficiente  de  pendiente  es  0.7240.  Supongamos  que  se  postula  que 

Hq- P2  —  0.5 
Hp.^^0.5 

es  decir,  el  verdadero  coeficiente  de  la  pendiente  es  0.5  segun  la  hipotesis  nula,  pero  menor  o 
mayor  que  0.5  segun  la  hipotesis  alternativa.  La  hipotesis  nula  es  una  hipotesis  simple,  mientras 


7  Una  hipotesis  estadistica  se  denomina  hipotesis  simple  si  especifica  el(los)  valor(es)  preciso(s)  del(los) 
parametro(s)  de  una  funcion  de  densidad  de  probabilidad  (fdp);  de  lo  contrario,  se  llama  hipotesis  com¬ 
puesta.  Por  ejemplo,  en  la  fdp  normal  (1  /a^/2d)  exp  {-j[(X  —  /u)/cr]2},  si  afirmamos  que  Hum  y  a  =  2,  se 
trata  de  una  hipotesis  simple;  pero  si  Hum  =  1 5  y  er  >  1 5,  es  una  hipotesis  compuesta,  porque  la  desviacion 
estandar  no  tiene  un  valor  especifico. 
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FIGURA  5.2 

Intervalo  de  confianza 
para  /32  a  100(1  —  a)%. 
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que  la  hipotesis  alternativa  es  compuesta;  y,  en  la  practica,  se  conoce  como  hipotesis  bilateral. 
Con  mucha  frecuencia,  dicha  hipotesis  alternativa  bilateral  refleja  el  hecho  de  que  no  se  tiene 
una  expectativa  a  priori  o  teorica  solida  sobre  la  direction  en  la  cual  debe  moverse  la  hipotesis 
alternativa  respecto  de  la  hipotesis  nula. 

<,Es  el  /1 2  observado  compatible  con  HqI  Para  responder,  consultemos  el  intervalo  de  confianza 
(5.3.9).  Sabemos  que,  a  la  larga,  los  intervalos  como  (0.5700,  0.8780)  contendran  al  verdadero 
/J2  con  una  probabilidad  de  95%.  En  consecuencia,  a  la  larga  (es  decir,  en  muestreo  repetido), 
tales  intervalos  proporcionan  un  recorrido  o  limites  dentro  de  los  cuales  puede  encontrarse  el 
verdadero  fc  con  un  coeficiente  de  confianza  de  95%.  Asi,  el  intervalo  de  confianza  proporciona 
un  conjunto  de  hipotesis  nulas  posibles.  Por  consiguiente,  si  el  en  Hq  se  encuentra  dentro  del 
intervalo  de  confianza  100(1  —  a)%,  no  se  rechaza  la  hipotesis  nula;  si  se  encuentra  por  fuera 
del  intervalo,  se  puede  rechazar.8  Este  intervalo  se  ilustra  esquematicamente  en  la  figura  5.2. 


Regia  de  decision  Construya  un  intervalo  de  confianza  para  ($2  a  1 00(1  —  a)%.  Si  el  en  Ho  se  encuentra  dentro 
de  este  intervalo  de  confianza,  no  rechace  Hq,  pero  si  esta  fuera  del  intervalo,  rechace  Hq. 


Segun  esta  regia,  para  el  ejemplo  hipotetico,  es  claro  que  Ho'.fii  —  0.5  se  encuentra  fuera  del 
intervalo  de  confianza  a  95%  dado  en  (5.3.9).  Por  consiguiente,  rechazamos  la  hipotesis  de  que  la 
verdadera  pendiente  sea  0.5,  con  95%  de  confianza.  Si  la  hipotesis  nula  fuera  cierta,  la  probabili¬ 
dad  de  obtener  por  casualidad  un  valor  de  pendiente  igual  a  0.7240  es,  como  maximo,  alrededor 
de  5%,  una  probabilidad  pequeiia. 

En  estadistica,  cuando  se  rechaza  la  hipotesis  nula,  se  dice  que  el  hallazgo  es  estadistica- 
mente  significativo.  Por  otra  parte,  cuando  no  se  hace,  se  dice  que  el  resultado  no  es  estadisti- 
camente  significative). 

Algunos  autores  utilizan  frases  como  “muy  significativo  desde  un  punto  de  vista  estadistico”. 
Con  este  termino,  por  lo  general  se  refieren  a  que,  cuando  rechazan  la  hipotesis  nula,  la  probabi¬ 
lidad  de  cometer  un  error  tipo  I  (por  ejemplo,  a)  es  un  numero  pequeno,  usualmente  1%.  Pero, 
como  demostrara  el  analisis  del  valor  p  en  la  section  5.8,  es  mejor  dejar  que  el  investigador 
califique  el  hallazgo  estadistico  como  “significativo”,  “moderadamente  significativo”  o  “muy 
significativo”. 


8  Siempre  tenga  en  mente  que  hay  una  posibilidad  de  1 00a  de  que  el  intervalo  de  confianza  no  contenga 
a  @2  en  Ho  aunque  la  hipotesis  este  correcta.  En  pocas  palabras,  hay  una  posibilidad  de  100a  de  cometer 
un  error  tipo  I.  Asf,  si  a  =  0.05,  hay  una  posibilidad  de  5%  de  rechazar  la  hipotesis  nula  aunque  sea 
verdadera. 
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Prueba  unilateral  o  de  una  cola 

Algunas  veces  tenemos  una  expectativa  a  priori  o  teorica  solida  (o  existen  expectativas  basadas 
en  algun  trabajo  empirico  previo)  de  que  la  hipotesis  alternativa  es  unilateral  o  unidireccional,  en 
lugar  de  ser  bilateral  o  de  dos  colas,  como  acabamos  de  analizar.  Asi,  para  el  ejemplo  de  los 
salarios  y  el  nivel  de  escolaridad,  se  puede  postular  que 

iftft  <  0.5  y  Tftft  >  0.5 

Quiza  la  teoria  economica  o  el  trabajo  empirico  previo  indiquen  que  la  pendiente  es  mayor  que 
0.5.  Aunque  el  procedimiento  para  probar  esta  hipotesis  se  deriva  facilmente  de  (5.3.5),  se  ex¬ 
plica  mejor  el  mecanismo  real  en  terminos  del  metodo  de  prueba  de  significancia  siguiente.9 


5.7  Pruebas  de  hipotesis:  enfoque  de  la  prueba  de  significancia 


Prueba  de  significancia  de  los  coeficientes  de  regresion: 
la  prueba  t 

Un  enfoque  alterno  pero  complementario  al  de  intervalos  de  confianza  para  probar  hipotesis 
estadisticas  es  el  metodo  de  la  prueba  de  significancia,  desarrollado  en  forma  independiente 
por  R.  A.  Fisher  y  conjuntamente  por  Neyman  y  Pearson.10  En  terminos  generales,  una  prueba 
de  significancia  es  un  procedimiento  que  utiliza  los  resultados  muestrales  para  verificar  la 
verdad  o  falsedad  de  una  hipotesis  nula.  La  idea  basica  de  las  pruebas  de  significancia  es  la  de 
un  estadistico  de  prueba  (un  estimador)  y  su  distribucion  muestral  segun  la  hipotesis  nula.  La 
decision  de  aceptar  o  rechazar  Ho  se  toma  con  base  en  el  valor  del  estadistico  de  prueba  obtenido 
con  los  datos  disponibles. 

Como  ilustracion,  recuerde  que,  segun  el  supuesto  de  normalidad,  la  variable 


ft  —  ft 

ee  (ft) 

(ft  - 


(5.3.2) 


sigue  la  distribucion  t  con  n  —  2  gl.  Si  el  valor  del  verdadero  ft 2  se  especifica  con  la  hipotesis 
nula,  el  valor  t  de  (5.3.2)  se  calcula  facilmente  a  partir  de  la  muestra  disponible  y,  por  consi- 
guiente,  sirve  como  estadistico  de  prueba.  Y  como  este  estadistico  de  prueba  sigue  una  distribu¬ 
cion  t,  caben  afirmaciones  sobre  los  intervalos  de  confianza  como  la  siguiente: 


Pr 


ft  ~  ft 

ee  (ft) 


=  1  —  a 


(5.7.1) 


donde  ft  es  el  valor  de  ft  en  [ft,  y  —  tan  y  ta/ 2  son  los  valores  de  t  (los  valores  crfticos  de  /)  obte- 
nidos  de  la  tabla  t  para  un  nivel  de  significancia  (a/2)  y  n  —  2  gl  [cf.  (5.3.4)].  La  tabla  t  esta  en 

el  apendice  D. 


9  Si  desea  utilizar  el  metodo  de  intervalos  de  confianza,  elabore  un  intervalo  de  confianza  unilateral  o  de  una 
cola  para  ft  a  (1 00  -  a)%.  £  Por  que? 

10  Hay  detalles  en  E.  L.  Lehman,  Testing  Statistical  Hypotheses,  John  Wiley  &  Sons,  Nueva  York,  1959. 
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Reorganizamos  (5.7.1)  para  obtener 


Pr  [ft  -  ta, 2  ee  (ft)  <ft<  ft2  +  ta/2  ee  (ft)]  =  1  -  a  (5.7.2) 

que  da  el  intervalo  en  el  cual  se  encontrara  ft 2  con  probabilidad  1  —  a,  dado  ft2  —  ft).  En  el  len- 
guaje  de  pruebas  de  hipotesis,  el  intervalo  de  confianza  a  100(1  —  a)%  establecido  en  (5.7.2)  se 
conoce  como  la  region  de  aceptacion  (de  la  hipotesis  nula),  y  la(s)  region(es)  que  queda(n)  fuera 
del  intervalo  de  confianza  se  llama(n)  region(es)  de  rechazo  (de  Hq)  o  region(es)  critica(s). 
Como  ya  mencionamos,  los  limites  de  confianza  dados  por  los  puntos  extremos  del  intervalo  de 
confianza  se  llaman  tambien  valores  criticos. 

Ahora  se  aprecia  la  estrecha  conexion  entre  los  enfoques  de  intervalo  de  confianza  y  prueba 
de  significancia  para  realizar  pruebas  de  hipotesis  al  comparar  (5.3.5)  con  (5.7.2).  En  el  procedi- 
miento  de  intervalo  de  confianza  se  trata  de  establecer  un  rango  o  intervalo  que  tenga  una  proba¬ 
bilidad  determinada  de  contener  al  verdadero  aunque  desconocido  ft2,  mientras  que  en  el  enfoque 
de  prueba  de  significancia  se  somete  a  hipotesis  algun  valor  de  ft2  y  se  ve  si  el  ft2  calculado  se 
encuentra  dentro  de  limites  (de  confianza)  razonables  alrededor  del  valor  sometido  a  hipotesis. 

Veamos  de  nuevo  el  ejemplo  de  los  salarios  y  el  nivel  de  escolaridad.  Sabemos  que  ft  — 
0.7240,  ee  (ft)  —  0.0700  y  gl  =  1 1.  Si  suponemos  a  —  5%,  ta/2  —  2.201. 

Si  suponemos  que  Hq:  ft2  —  ft\  —  0.5  y  H\.  ft2  ±  0.5,  (5.7.2)  se  convierte  en 

Pr  (0.3460  <  ft  <  0.6540)  (5.7.3)11 

como  se  muestra  en  el  diagrama  de  la  figura  5.3. 

En  la  practica,  no  hay  necesidad  de  estimar  (5.7.2)  explicitamente.  Se  calcula  el  valor  de  t  del 
centro  de  la  doble  desigualdad  dada  en  (5.7.1)  y  se  ve  si  cae  entre  los  valores  criticos  t  o  fuera  de 
ellos.  Para  el  ejemplo, 


t 


0.7240-0.5 

0.0700 


=  3.2 


(5.7.4) 


valor  que  con  claridad  se  encuentra  en  la  region  critica  de  la  figure  5.4.  La  conclusion  se  man- 
tiene;  es  decir,  rechazamos  Hq. 


FIGURA  5.3 

Intervalo  de  confianza  a 
95%  para  ft2  segun  la  hi¬ 
potesis  de  que  ft2  =  0.5. 


m 


11  En  la  seccion  5.2,  punto  4,  se  afirmo  que  no  se  puede  decir  que  la  probabilidad  de  que  el  intervalo  fijo 
(0.4268,  0.5914)  incluya  el  verdadero  fi2,  sea  de  95%.  Pero  si  se  puede  hacer  la  afirmacion  probabilistica 
dada  en  (5.7.3)  porque  al  ser  un  estimador,  es  una  variable  aleatoria. 
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FIGURA  5.4 

Intervalo  de  confianza  a 
95%  para  t(  1 1  gl). 


m 


Observe  que  si  el  (=  Pi)  estimado  es  igual  al  hipotetico,  el  valor  t  en  (5.7.4)  sera  cero. 
Sin  embargo,  en  la  medida  en  que  el  valor  de  estimado  se  aleje  del  valor  hipotetico  de  fij,  el 
|t|  (es  decir,  el  valor  absoluto  de  t;  nota :  /  pucdc  serpositivo  o  negativo)  sera  cada  vez  mayor.  Por 
consiguiente,  un  valor  “grande”  de  \t\  sera  evidencia  en  contra  de  la  hipotesis  nula.  Siempre  se 
puede  utilizar  la  tabla  t  para  determinar  si  un  valor  t  particular  es  grande  o  pequeno;  la  respuesta, 
como  sabemos,  depende  de  los  grados  de  libertad  igual  que  de  la  probabilidad  del  error  tipo  I 
que  estemos  dispuestos  a  aceptar.  Como  se  observa  en  la  tabla  t  del  apendice  D  (tabla  D.2),  para 
cualquier  valor  dado  de  gl,  la  probabilidad  de  obtener  un  valor  de  |/|  cada  vez  mayor  es  progresi- 
vamente  menor.  Por  tanto,  para  20  gl,  la  probabilidad  de  obtener  un  valor  |f|  mayor  o  igual  a  1.725 
es  0.10  o  10%,  pero  para  los  mismos  gl,  la  probabilidad  de  obtener  un  valor  \t\  mayor  o  igual  a 
3.552  es  tan  solo  0.002,  o  0.2%. 

Como  utilizamos  la  distribucion  t,  el  anterior  procedimiento  de  prueba  se  llama,  apropiada- 
mente,  prueba  t.  En  el  lenguaje  de  las  pruebas  de  signilicancia,  se  dice  que  un  estadistico  es 
estadisticamente  significativo  si  el  valor  del  estadistico  de  prueba  cae  en  la  region  critica. 
En  este  caso,  se  rechaza  la  hipotesis  nula.  De  la  misma  manera,  se  dice  que  una  prueba  no  es 
estadisticamente  significativa  si  el  valor  del  estadistico  de  prueba  cae  en  la  region  de  acepta- 
cion.  En  esta  situacion,  no  se  rechaza  la  hipotesis  nula.  En  el  ejemplo,  la  prueba  t  es  significativa 
y  por  tanto  se  rechaza  la  hipotesis  nula. 

Antes  de  concluir  la  exposicion  de  pruebas  de  hipotesis,  observe  que  este  procedimiento  de 
prueba  se  conoce  como  procedimiento  de  las  pruebas  de  significancia  bilaterales,  o  de  dos  colas, 
pues  se  consideran  las  dos  colas  extremas  de  la  distribucion  de  probabilidad  relevante,  las  regio- 
nes  de  rechazo,  y  se  rechaza  la  hipotesis  nula  si  cae  en  cualquiera  de  ellas.  Esto  sucede  porque  la 
Hi  era  una  hipotesis  compuesta  de  dos  lados;  (P  /  0.5  significa  que  (ij  es  mayor  o  menor  que  0.5. 
Sin  embargo,  supongamos  que  la  experiencia  indica  que  la  pendiente  es  mayor  que  0.5.  En  este 
caso  tenemos:  1 1 o',  ft 2  <  0.5  y  Hp.fc  >  0.5.  Aunque  H\  es  aim  una  hipotesis  compuesta,  ahora  es 
unilateral.  Para  probar  esta  hipotesis  se  utiliza  una  prueba  de  una  cola  (la  cola  derecha),  como 
se  ve  en  la  figura  5.5.  (Vease  tambien  el  analisis  en  la  seccion  5.6.) 

El  procedimiento  de  prueba  es  similar  al  anterior  excepto  que  el  limite  de  confianza  superior 
o  valor  critico  corresponde  ahora  a  ta  —  to.os,  es  decir,  al  nivel  de  5%.  Como  indica  la  figura  5.5, 
en  este  caso  no  es  preciso  considerar  la  cola  inferior  de  la  distribucion  t.  La  utilization  de  una 
prueba  de  significancia  de  una  o  dos  colas  dependent  de  la  forma  como  se  formule  la  hipotesis 
alternativa,  la  cual,  a  su  vez,  puede  depender  de  algunas  consideraciones  a  priori  o  de  experiencia 
empirica  previa.  (Otras  consideraciones  se  dan  en  la  seccion  5.8.) 

En  la  tabla  5. 1  se  presenta  un  resumen  del  metodo  de  la  prueba  t  de  significancia  para  pruebas 
de  hipotesis. 
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FIGURA  5.5 

Prueba  de  significance  de 
una  cola. 


m 


TAB  LA  5.1 

La  prueba  t  de  signi¬ 
ficance:  reglas  de 
decision 


Tipo  de 

Ho:  hipotesis 

Hy.  hipotesis 

Regia  de  decision: 

hipotesis 

nula 

alternativa 

rechazar  Ho  si 

Dos  colas 

Pl=P  2 

Pi  #  Pi 

|  f  |  >  ta/2fg\ 

Cola  derecha 

Pi  <  Pi 

Pi  >  Pi 

t  >  ta, gl 

Cola  izquierda 

Pi  >  Pi 

Pi  <  Pi 

A 

1 

o'* 

tb_ 

Notas:  es  el  valor  numerico  hipotetico  de  fc. 

1 1 1  significa  el  valor  absoluto  de  t. 

ta  o  ta/ 2  significa  el  valor  critico  de  t  al  nivel  de  significancia  aoa/2. 

gl:  grados  de  libertad,  ( n  —  2)  para  el  modelo  con  dos  variables,  ( n  —  3)  para  el  modelo  con  tres  variables,  y  asi 
sucesivamente. 

Para  probar  hipotesis  sobre  (5\  se  sigue  un  procedimiento  similar. 


Prueba  de  significancia  de  a2-,  la  prueba  x2 

Como  otro  ejemplo  de  la  metodologia  de  las  pruebas  de  significancia,  considere  la  siguiente 
variable: 

X2  =  (n-2)—  (5.4.1) 

<7Z 

la  cual,  como  ya  mencionamos,  sigue  una  distribucion  y2  con  n  —  2  gl.  Para  el  ejemplo  hipo¬ 
tetico,  ct2  =  0.8937  y  gl  =  11.  Si  se  postula  que  Hq :  a2  =  0.6  frente  a  H\.a 2  ^  0.6,  la  ecua- 
cion  (5.4.1)  proporciona  el  estadistico  de  prueba  para  Hq.  Al  sustituir  los  valores  apropiados  en 
(5.4.1),  se  descubre  que,  cotiHq,  y2  =  16.3845.  Si  suponemos  que  a  —  5%,  los  valores  criticos  y2 
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TABLA  5.2 

Resumen  de  la  prueba 

X2 

Ho:  hipotesis 
nula 

2  2 
a  =  oo 

Hy.  hipotesis 
alternativa 

2  2 
a  >  Oo 

Region  critical 
rechazar  Ho  si 

gi(<r2)  2 

2  >  X„,g| 

2  2 

Cf  =  (T0 

2  2 
o  <  (To 

gi(o2)  2 

al  < 

2  2 
=  GQ 

2  /  2 
(T  ±  CTO 

gi(ff2)  2 

2  >  Za/2,g| 

CO 

2 

°  <  X(l-a/2),gl 

Nota:  <Tq  es  el  valor  de  a2  segun  la  hipotesis  nula.  El  primer  subindice  asociado  a  y}  en  la  ultima  columna  es  el  nivel 
de  significancia,  en  tanto  que  el  segundo  indica  los  grados  de  libertad.  Estos  son  los  valores  criticos  ji  cuadrada.  Obser¬ 
ve  que,  si  el  modelo  de  regresion  es  de  dos  variables,  los  gl  son  ( n  —  2),  si  el  modelo  de  regresion  es  de  tres  variables 
son  (n  —  3)  y  asi  sucesivamente. 


son  3.81575  y  21.9200.  Como  el  valor  /2  calculado  cae  dentro  de  estos  limites,  los  datos  apoyan 
la  hipotesis  nula  y  no  la  rechazamos.  (Vease  la  figura  5.1.)  Este  procedimiento  de  prueba  se  de- 
nomina  prueba  de  significancia  ji  cuadrada.  El  metodo  de  la  prueba  de  significancia  x2  para  la 
prueba  de  hipotesis  se  resume  en  la  tabla  5.2. 


5.8  Prueba  de  hipotesis:  algunos  aspectos  practicos 


Significado  de  "aceptar"  o  "rechazar"  una  hipotesis 

Si,  con  base  en  una  prueba  de  significancia,  por  ejemplo,  la  prueba  t,  decidimos  “aceptar”  la  hi¬ 
potesis  nula,  todo  lo  que  se  afirma  es  que,  con  base  en  la  evidencia  dada  por  la  muestra,  no  existe 
razon  para  rechazarla;  no  se  sostiene  que  la  hipotesis  nula  sea  verdadera  con  absoluta  certeza. 
(,Por  que?  Para  responder  esto,  regresemos  al  ejemplo  de  los  salarios  y  los  niveles  de  escolaridad 
y  supongamos  que  Hq :  fii  —  0.70.  Ahora,  el  valor  estimado  de  la  pendiente  es  p2  —  0.7241  con  un 


ee  (Pi)  —  0.070 1 .  En  seguida,  con  base  en  la  prueba  t,  se  obtiene  que  t  = 


(0.7241  -  0.7) 


=  0.3438, 


0.0701 

que  no  es  significativo,  por  ejemplo,  en  a  =  5%.  Por  consiguiente,  se  dice  que  “aceptamos” 
Hq.  Pero  ahora  supongamos  que  Hq:  /b  =  0.6.  Al  aplicar  de  nuevo  la  prueba  t,  se  obtiene  t  — 
(0.7241  -  0.6) 

- —  - =  1.7703,  que  tampoco  es  estadisticamente  significativo.  Entonces,  ahora  se 


dice  que  “aceptamos”  esta  Hq.  pCual  de  estas  dos  hipotesis  nulas  es  la  “verdadera”?  No  sabemos. 
Por  consiguiente,  al  “aceptar”  una  hipotesis  nula  siempre  se  debe  tener  presente  que  puede  existir 
otra  hipotesis  nula  igualmente  compatible  con  los  datos.  Es  preferible,  por  tanto,  decir  que  se 
puede  aceptar  la  hipotesis  nula  en  lugar  de  decir  que  la  aceptamos.  Mejor  aun, 


...de  la  misma  manera  que  en  un  tribunal  se  pronuncia  un  veredicto  de  “no  culpable”  en  lugar  de 
decir  “inocente”,  asi  la  conclusion  de  una  prueba  estadistica  es  la  de  “no  rechazar”  en  lugar  de  “acep¬ 
tar”.12 


12  Jan  Kmenta,  Elements  of  Econometrics,  Macmillan,  Nueva  York,  1971,  p.  114. 
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Hipotesis  nula  "cero"  y  regia  practica  "2 1" 

La  hipotesis  nula  que  es  objeto  frecuente  de  prueba  en  el  trabajo  empirico  es  H0:  fi2  —  0,  es  decir, 
el  coeficiente  de  la  pendiente  es  cero.  Esta  hipotesis  nula  de  “cero”  es  un  mecanismo  para  esta- 
blecer  si  Y  tiene  relacion  con  X,  la  variable  explicativa.  Si,  para  empezar,  no  existe  relacion  entre 
Y y  X,  entonces  no  tiene  caso  probar  una  hipotesis  como  (J>2  =  0.3  o  cualquier  otro  valor. 

Esta  hipotesis  nula  se  prueba  facilmente  con  los  enfoques  de  intervalos  de  confianza  o  prueba 
t  estudiados  en  las  secciones  anteriores.  Pero,  con  mucha  frecuencia,  tales  pruebas  formales  se 
abrevian  con  la  regia  de  significancia  “2 1\  que  puede  expresarse  asi: 


Regia  practica  Si  el  numero  de  grados  de  libertad  es  20  o  mas,  y  si  a,  el  nivel  de  significancia,  se  fija  en  0.05, 

“2f”  se  rechaza  la  hipotesis  nula  ft2  =  0  si  el  valor  de  f  [  =  /32 fee  02)]  calculado  a  partir  de  (5.3.2) 

es  superior  a  2  en  valor  absoluto. 


El  razonamiento  de  esta  regia  no  es  muy  dificil.  De  (5.7.1)  se  sabe  que 
H0:  p2  —  0  si 


rechazaremos 


o 


o  cuando 


t  =  yS2/ee  (/02)  >  4/2 


cuando  yS2  >  0 


t  =  p2/ee(02)  <  -4/2 


cuando  f32  <  0 


t  = 


02 

ee(j62) 


^  4)2 


(5.8.1) 


para  los  grados  de  libertad  apropiados. 

Ahora,  si  examinamos  la  tabla  t  del  apendice  D,  se  ve  que,  para  gl  alrededor  de  20  o  mas, 
un  valor  calculado  t  mayor  que  2  (en  terminos  absolutos),  por  ejemplo,  2.1,  es  estadisticamente 
significativo  al  nivel  de  5%,  lo  cual  implica  rechazo  de  la  hipotesis  nula.  Por  consiguiente,  si  se 
descubre  que  para  20  o  mas  gl  el  valor  t  calculado  es  2.5  o  3,  ni  siquiera  hay  que  consultar  la  tabla 
t  para  asegurar  la  significancia  del  coeficiente  de  la  pendiente  estimada.  Por  supuesto,  siempre 
puede  consultar  la  tabla  t  para  obtener  el  nivel  preciso  de  significancia.  Sin  embargo,  esto  debe 
hacerse  siempre  que  los  gl  sean  inferiores  a,  por  ejemplo,  20. 

A  proposito,  observe  que  si  se  esta  probando  la  hipotesis  unilateral  f}2  —  0  respecto  de  p2  >  0 
o  p2  <  0,  se  debe  rechazar  la  hipotesis  nula  si 


1*1 


02 

ee(/f2) 


(5.8.2) 


Si  fijamos  a  en  0.05,  en  la  tabla  t  se  observa  que,  para  20  o  mas  gl,  un  valor  t  mayor  que  1 .73  es 
estadisticamente  significativo  al  nivel  de  significancia  de  5%  (de  una  cola).  Por  tanto,  siempre 
que  un  valor  t  exceda,  por  ejemplo,  de  1.8  (en  terminos  absolutos)  y  los  gl  sean  20  o  mas,  no  es 
necesario  consultar  la  tabla  t  para  la  significancia  estadistica  del  coeficiente  observado.  Es  claro 
que,  si  se  escoge  a  igual  a  0.01  o  cualquier  otro  nivel,  habra  que  decidir  sobre  el  valor  apropiado 
de  t  como  valor  critico  de  referencia.  Pero  a  estas  alturas,  el  lector  debe  ser  capaz  de  hacerlo. 
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Formacion  de  las  hipotesis  nula  y  alternativa13 

Con  las  hipotesis  nula  y  alternativa,  probar  su  significance  estadistica  no  debe  seguir  siendo 
un  misterio.  Pero,  (',c6mo  se  formulan  estas  hipotesis?  No  existen  reglas  especificas.  Muy  a  me- 
nudo,  el  fenomeno  en  estudio  sugerira  la  forma  de  las  hipotesis  nula  y  alternativa.  Por  ejemplo, 
se  pide  estimar  la  linea  del  mercado  de  capitales  (LMC)  de  la  teorla  de  portafolios,  que  postula 
que  Ej  —  +  fa <*i,  donde  E  —  rendimiento  esperado  del  portafolio  y  a  —  la  desviacion  estan- 

dar  del  rendimiento,  una  medida  de  riesgo.  Como  se  espera  que  la  ganancia  y  el  riesgo  esten 
relacionados  positivamente,  entre  mayor  sea  el  riesgo,  mas  alta  sera  la  ganancia;  la  hipotesis 
alternativa  natural  a  la  hipotesis  nula,  /b  =  0,  seria  /b  >  0.  Es  decir,  no  se  consideraran  valores 
de  /b  menores  de  cero. 

Pero  considere  el  caso  de  la  demanda  de  dinero.  Como  demostraremos  mas  adelante,  un  deter- 
minante  importante  de  la  demanda  de  dinero  es  el  ingreso.  Estudios  anteriores  de  las  funciones  de 
demanda  de  dinero  revelan  que  la  elasticidad  ingreso  de  la  demanda  de  dinero  (el  cambio  porcen- 
tual  en  la  demanda  de  dinero  por  un  cambio  porcentual  de  1%  en  el  ingreso)  suele  ubicarse  en  un 
rango  de  0.7  a  1.3.  Por  consiguiente,  en  un  nuevo  estudio  de  la  demanda  de  dinero,  si  se  postula 
que  el  coeficiente  /b  de  la  elasticidad  ingreso  es  1,  la  hipotesis  alternativa  puede  ser  que  7^  1, 
una  hipotesis  alternativa  bilateral. 

Asi,  las  expectativas  teoricas  o  el  trabajo  empirico  previo  o  ambos  pueden  ser  la  base  para 
formular  hipotesis.  Sin  embargo,  sin  importar  la  forma  de  postular  hipotesis,  es  en  extremo  im¬ 
portante  que  el  investigation  plantee  estas  hipotesis  antes  de  la  investigacion  emplrica.  De  lo 
contrario,  el  o  ella  seran  culpables  de  razonamientos  circulares  o  profecias  autocumplidas.  Es 
decir,  si  se  formula  la  hipotesis  despues  de  examinar  los  resultados  empiricos,  puede  presentarse 
la  tentacion  de  formular  la  hipotesis  de  manera  que  justifique  los  resultados.  Deben  evitarse  estas 
practicas  a  cualquier  costo,  al  menos  para  salvar  la  objetividad  cientifica.  Recuerde  la  cita  de 
Stigler  al  principio  de  este  capitulo. 


Seleccion  del  nivel  de  significance  a 

Del  analisis  expuesto  hasta  ahora,  debe  tenerse  claro  que  rechazar  o  no  una  hipotesis  nula  de- 
pende  de  a,  el  nivel  de  significance  o  probabilidad  de  cometer  un  error  tipo  /,  o  sea,  la  proba- 
bilidad  de  rechazar  la  hipotesis  cuando  es  verdadera.  En  el  apendice  A  se  analiza  en  detalle  la 
naturaleza  del  llamado  error  tipo  I,  su  relation  con  el  error  tipo  II  (la  probabilidad  de  aceptar 
la  hipotesis  cuando  es  falsa)  y  la  razon  por  la  cual  la  estadistica  clasica  suele  centrarse  en  el  error 
tipo  I.  Pero  incluso  entonces,  (',por  que  a  se  fija  generalmente  en  los  niveles  de  1,  5  o,  cuanto 
mucho,  10%?  De  hecho,  no  hay  nada  sagrado  acerca  de  estos  valores;  cualquier  otro  valor  seria 
por  igual  apropiado. 

En  un  libro  introductorio  como  este  no  es  posible  analizar  a  fondo  la  razon  por  la  cual  se  esco- 
gen  los  niveles  de  significancia  1,  5  o  10%,  pues  nos  llevaria  al  campo  de  la  toma  de  decisiones 
estadisticas,  de  suyo  una  disciplina  completa.  Sin  embargo,  si  podemos  ofrecer  un  breve  resu- 
men.  Como  estudiamos  en  el  apendice  A,  para  un  tamano  de  muestra  dada,  si  tratamos  de  reducir 
un  error  tipo  /,  aumenta  un  error  tipo  II,  y  viceversa.  Es  decir,  con  el  tamano  de  la  muestra,  si 
tratamos  de  reducir  la  probabilidad  de  rechazar  la  hipotesis  cuando  es  verdadera,  se  aumenta  al 
mismo  tiempo  la  probabilidad  de  aceptarla  cuando  es  falsa.  Por  tanto,  dado  el  tamano  de  la  mues- 


13  Hay  una  exposicion  interesante  sobre  la  formulacion  de  hipotesis  en  J.  Bradford  De  Long  y  Kevin  Lang, 
"Are  All  Economic  Hypotheses  False?",  Journal  of  Political  Economy,  vol.  1 00,  num.  6,  1 992,  pp.  1 257-1 272. 
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tra,  existe  una  compensacion  entre  estos  dos  tipos  de  error.  Ahora,  la  unica  forma  de  decidir  sobre 
esta  compensacion  es  encontrar  los  costos  relativos  de  ambos  tipos  de  error.  Entonces, 

Si  el  error  de  rechazar  la  hipotesis  nula  cuando  es  verdadera  (error  tipo  I)  es  costoso  en  comparacion 
con  el  error  de  no  rechazar  la  hipotesis  nula  cuando  es  falsa  (error  tipo  II),  sera  razonable  fijar  la 
probabilidad  de  ocurrencia  del  primer  tipo  de  error  en  niveles  bajos.  Si,  por  otra  parte,  el  costo  de 
incurrir  en  el  error  tipo  I  es  bajo  comparado  con  el  costo  de  cometer  el  error  tipo  II,  se  justificara  que 
la  probabilidad  del  primer  tipo  de  error  sea  alta  (lo  que  reduce  la  posibilidad  de  incurrir  en  el  segundo 
tipo  de  error).14 

Desde  luego,  el  problema  es  que  pocas  veces  se  conocen  los  costos  de  cometer  los  dos  tipos  de 
error.  Por  tanto,  los  econometristas  tienen  por  costumbre  fijar  el  valor  de  a  en  niveles  de  1,  5  o 
10%  como  maximo,  y  escogen  un  estadistico  de  prueba  que  haga  que  la  probabilidad  de  cometer 
un  error  tipo  II  sea  lo  mas  pequena  posible.  Como  uno  menos  la  probabilidad  de  cometer  un  error 
tipo  II  se  conoce  como  la  potencia  de  la  prueba,  este  procedimiento  equivale  a  maximizar  la 
potencia  de  la  prueba.  (Vease  en  el  apendice  A  un  analisis  de  la  potencia  de  una  prueba.) 

Afortunadamente,  el  problema  relacionado  con  la  seleccion  del  valor  apropiado  de  a  se  evita 
al  emplear  lo  que  se  conoce  como  valor  p  del  estadistico  de  prueba,  que  analizamos  a  continua- 
cion. 


Nivel  exacto  de  significance:  Valor  p 

Como  recien  mencionamos,  el  talon  de  Aquiles  del  metodo  clasico  de  la  prueba  de  hipotesis  es  su 
arbitrariedad  al  seleccionar  a.  Una  vez  obtenido  un  estadistico  de  prueba  (es  decir,  el  estadistico 
t )  en  un  ejemplo  dado,  (,por  que  no  tan  solo  consultar  la  tabla  estadistica  adecuada  y  encontrar 
la  probabilidad  real  de  obtener  un  valor  del  estadistico  de  prueba  tan  grande  o  mayor  que  el  ob¬ 
tenido  en  el  ejemplo?  Esta  probabilidad  se  denomina  valor  p  (es  decir,  valor  de  probabilidad), 
tambien  conocido  como  nivel  observado  o  exacto  de  significancia,  o  probabilidad  exacta  de 
cometer  un  error  tipo  I.  Mas  tecnicamente,  el  valor  p  se  define  como  nivel  de  significancia  mas 
bajo  al  cual  puede  rechazarse  una  hipotesis  nula. 

Para  ilustrar,  retomemos  el  ejemplo  de  los  salarios  y  el  nivel  de  escolaridad.  Con  la  hipotesis 
nula  de  que  el  verdadero  coeficiente  del  nivel  de  escolaridad  es  0.5,  se  obtuvo  un  valor  t  de  3.2  en 
la  ecuacion  (5.7.4).  ^,Cual  es  el  valor p  de  obtener  un  valor  t  igual  o  superior  a  3.2?  En  la  tabla  t 
del  apendice  D  se  observa  que,  para  1 1  gl,  la  probabilidad  de  obtener  tal  valor  t  debe  estar  muy 
por  debajo  de  0.005  (una  cola)  o  0.010  (dos  colas). 

Si  se  usan  los  paquetes  estadlsticos  Stata  o  EViews,  se  calcula  que  el  valor  p  de  obtener  un 
valor  t  igual  o  mayor  que  3.2  es  de  0.00001,  es  decir,  muy  pequeno.  Este  es  el  valor p  del  estadis¬ 
tico  observado  t.  Este  nivel  exacto  de  significancia  del  estadistico  t  es  mucho  menor  que  el  nivel 
de  significancia  que  se  fija  de  manera  convencional  y  arbitraria,  como  1,  5  o  10%.  En  realidad, 
si  se  utilizara  el  valor  p  recien  calculado  y  se  rechazara  la  hipotesis  nula  de  que  el  verdadero 
coeficiente  de  escolaridad  es  0.5,  la  probabilidad  de  cometer  un  error  tipo  I  seria  mas  o  menos 
de  solo  1  en  100  000. 

Como  ya  mencionamos,  si  los  datos  no  apoyan  la  hipotesis  nula,  el  \  t\  obtenido  con  tal  hipo¬ 
tesis  nula  sera  “grande”  y,  por  consiguiente,  el  valor p  de  obtener  tal  \t\  sera  “pequeno”.  En  otras 
palabras,  para  un  tamano  de  muestra  dado,  a  medida  que  aumenta  \t\,  el  valor p  se  reduce  y,  por 
consiguiente,  se  rechaza  la  hipotesis  nula  con  mayor  confianza. 

qCual  es  la  relacion  entre  el  valor  p  y  el  nivel  de  significancia  a?  Si  se  adquiere  el  habito  de 
fijar  a  igual  al  valor p  de  un  estadistico  de  prueba  (es  decir,  el  estadistico  t ),  entonces  no  hay  con- 
flicto  entre  estos  dos  valores.  En  otros  terminos,  es  mejor  dejar  de  fijar  a  de  forma  arbitraria 


14  Jan  Kmenta,  Elements  of  Econometrics,  Macmillan,  Nueva  York,  1971,  pp.  126-127. 


Capitulo  5  Regresion  con  dos  variables:  estimation  por  intervalos  y  pruebas  de  hipotesis  1  23 


en  algun  nivel  y  tan  solo  seleccionar  el  valor  p  del  estadistico  de  prueba.  Es  preferible  dejar 
que  el  lector  decida  si  debe  rechazar  la  hipotesis  nula  con  el  valor  p  dado.  Si,  en  una  aplicacion, 
el  valor p  de  un  estadistico  de  prueba  resulta  ser,  por  ejemplo,  0.145  o  14.5%,  y  si  el  lector  desea 
rechazar  la  hipotesis  nula  en  este  nivel  (exacto)  de  significancia,  que  asi  sea.  No  esta  mal  correr 
el  riesgo  de  equivocarse  14.5%  de  las  veces  si  se  rechaza  la  hipotesis  nula  verdadera.  De  manera 
similar,  como  en  el  ejemplo  de  los  salarios  y  el  nivel  de  escolaridad,  no  esta  mal  si  el  investigador 
desea  escoger  un  valor p  cercano  a  0.02%  y  no  correr  el  riesgo  de  equivocarse  mas  de  2  veces  de 
cada  10  000.  Despues  de  todo,  algunos  investigadores  pueden  amar  el  riesgo  y  otros  no. 

En  el  resto  de  este  texto  por  lo  general  citaremos  el  valor  p  de  un  estadistico  de  prueba  dado. 
Tal  vez  algunos  lectores  deseen  fijar  a  en  algun  nivel  y  rechazar  la  hipotesis  nula  si  el  valor  p  es 
menor  que  a.  Es  su  decision. 


Significancia  estadfstica  y  significancia  practica 

Recordemos  el  ejemplo  3.1  y  los  resultados  de  la  regresion  en  la  ecuacion  (3.7.1).  Esta  regresion 
relaciona  el  consumo  personal  (GCP)  con  el  producto  interno  bruto  (P1B)  en  Estados  Unidos  de 
1960  a  2005;  ambas  variables  se  miden  en  miles  de  millones  de  dolares  de  2000. 

En  esta  regresion  observamos  que  la  propension  marginal  a  consumir  (PMC),  es  decir,  el 
consumo  adicional  que  produce  un  dolar  adicional  de  ingreso  (medido  por  el  PIB)  es  de  alrede- 
dor  de  0.72,  o  72  centavos.  Con  los  datos  de  la  ecuacion  (3.7.1),  el  lector  puede  verificar  que  el 
intervalo  de  confianza  a  95%  para  la  PMC  sea  (0.7129,  0.7306).  (Nota:  Como  hay  44  gl  en  este 
problema,  no  contamos  con  un  valor  critico  t  preciso  para  estos  gl.  En  consecuencia,  el  intervalo 
de  confianza  a  95%  se  calcula  con  la  regia  practica  2t.) 

Suponga  que  alguien  afirma  que  la  verdadera  PMC  es  0.74.  /.Esta  cifra  difiere  de  0.72?  Si,  si 
nos  apegamos  estrictamente  al  intervalo  de  confianza  establecido  antes. 

Pero,  (',cual  es  el  significado  practico  o  real  del  hallazgo?  Es  decir,  ^que  diferencia  hay  entre 
asignar  a  la  PMC  un  valor  de  0.74  o  uno  de  0.72?  (',Es  la  diferencia  de  0.02  entre  las  dos  PMC 
muy  importante  en  la  practica? 

La  respuesta  depende  de  lo  que  en  realidad  se  haga  con  estas  estimaciones.  Por  ejemplo,  de  la 
macroeconomia  se  sabe  que  el  multiplicador  del  ingreso  es  1/(1  —  PMC).  Por  tanto,  si  la  PMC 
es  0.72,  el  multiplicador  es  3.57,  pero  sera  3.84  si  la  PMC  es  igual  a  0.74.  Es  decir,  si  el  gobierno 
incrementara  su  gasto  en  1  dolar  para  sacar  la  economla  de  una  recesion,  el  ingreso  aumentaria 
3.57  dolares,  si  la  PMC  fuese  0.72,  pero  lo  hara  3.84  dolares  si  la  PMC  es  0.74.  Y  esa  diferencia 
puede  ser  crucial  para  reactivar  la  economia. 

El  punto  de  toda  esta  exposicion  es  que  no  se  debe  confundir  la  significancia  estadistico  con 
la  significancia  practica  o  economica.  Como  afirma  Goldberger: 

Cuando  se  especifica  una  hipotesis  nula,  digamos  fy  =  1 ,  lo  que  se  busca  es  que  este  cercano  a 
1,  tan  cerca  que  para  todos  los  propositos  practicos  pueda  tratarse  como  si  fiuera  1.  Pero  que  1.1  sea 
“practicamente  lo  mismo  que”  1.0  es  un  asunto  de  economla,  no  de  estadlstica.  El  asunto  no  se 
resuelve  con  una  prueba  de  hipotesis,  porque  el  estadistico  de  prueba  [1  =  ](bj  —  1) /abj  mide 
el  coeficiente  estimado  en  unidades  de  errores  estandar,  las  cuales  no  tienen  significado  para  me- 
dir  el  parametro  economico  fi—  1 .  Puede  ser  una  buena  idea  reservar  el  termino  “significancia”  para 
el  concepto  estadistico,  y  adoptar  la  palabra  “sustancial”  para  el  economico.15 


15  Arthur  S.  Goldberger,  A  Course  in  Econometrics,  Harvard  University  Press,  Cambridge,  Massachusetts,  1 991, 
p.  240.  Observe  que  bj  es  el  estimador  de  MCO  de  fij,  y  or;  es  su  error  estandar.  Este  enfoque  se  corrobora 
en  D.  N.  McCloskey,  "The  Loss  Function  Has  Been  Mislaid:  The  Rhetoric  of  Significance  Tests",  American 
Economic  Review,  vol.  75,  1 985,  pp.  201  -205.  Vease  tambien  D.  N.  McCloskey  y  S.  T.  Ziliak,  "The  Standard 
Error  of  Regression,"  journal  of  Economic  Literature,  vol.  37,  1996,  pp.  97-1 14. 
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El  punto  expresado  por  Goldberger  es  importante.  A  medida  que  el  tamano  de  la  muestra  se 
hace  muy  grande,  la  importancia  de  los  temas  relacionados  con  significancia  estadlstica  se  re¬ 
duce  mucho,  pero  los  temas  de  significancia  economica  adquieren  importancia  critica.  De  hecho, 
como  con  muestras  grandes  se  rechazan  casi  todas  las  hipotesis  nulas,  puede  haber  estudios  en 
los  cuales  lo  unico  importante  sea  la  magnitud  de  los  valores  estimados  puntuales. 

Eleccion  entre  los  enfoques  de  intervalos  de  confianza 
y  pruebas  de  significancia  en  las  pruebas  de  hipotesis 

En  la  mayor  parte  de  los  analisis  economicos  aplicados,  la  hipotesis  nula  postulada  hace  las  veces 
de  comodin,  y  el  objetivo  del  trabajo  empirico  es  tumbarlo,  es  decir,  rechazar  la  hipotesis  nula. 
Por  tanto,  en  el  ejemplo  consumo-ingreso,  la  hipotesis  nula  de  que  la  PMC  /L  =  0  es  a  todas 
luces  absurda,  pero  con  frecuencia  sirve  para  ejemplificar  los  resultados  empiricos.  Parece  que 
a  los  editores  de  publicaciones  especializadas  de  renombre  no  les  emociona  publicar  un  trabajo 
empirico  que  no  rechace  la  hipotesis  nula.  De  alguna  manera,  como  noticia,  es  mas  novedoso  el 
hallazgo  de  que  la  PMC  sea  estadisticamente  diferente  de  cero  que  el  hallazgo  de  que  sea  igual 
a,  digamos,  0.7. 

Asi,  J.  Bradford  De  Long  y  Kevin  Lang  sostienen  que  es  mejor  para  los  economistas 

...concentrarse  en  las  magnitudes  de  los  coeficientes  e  informar  sobre  los  niveles  de  confianza  y  no 
sobre  las  pruebas  de  significancia.  Si  todas,  o  casi  todas,  las  hipotesis  nulas  son  falsas,  no  es  muy 
sensato  concentrarse  en  averiguar  si  una  estimacion  es  o  no  distinguible  de  su  valor  predicho  con  la 
hipotesis  nula.  En  lugar  de  esto,  deseamos  saber  que  modelos  son  buenas  aproximaciones,  para  lo 
cual  es  necesario  conocer  los  intervalos  de  los  valores  de  los  parametros  excluidos  por  las  estimacio- 
nes  emplricas.16 

En  resumen,  estos  autores  prefieren  el  enfoque  de  intervalos  de  confianza  al  de  pruebas  de 
significancia.  Este  consejo  puede  ser  de  utilidad  para  el  lector.17 


5.9  Analisis  de  regresion  y  analisis  de  varianza 


En  esta  seccion  estudiamos  el  analisis  de  regresion  desde  el  punto  de  vista  del  analisis  de  va¬ 
rianza,  y  nos  introduciremos  en  una  forma  complementaria  de  mirar  el  problema  de  la  inferencia 
estadistica. 

En  el  capitulo  3,  seccion  3.5,  elaboramos  la  siguiente  identidad: 


(3.5.2) 


es  decir,  SCT  =  SCE  +  SCR,  la  cual  fragmenta  la  suma  de  cuadrados  total  (SCT)  en  dos  com- 
ponentes:  la  suma  de  cuadrados  explicada  (SCE)  y  la  suma  de  cuadrados  de  residuos  (SCR).  El 
estudio  de  estos  componentes  de  SCT  se  conoce  como  analisis  de  varianza  (ANOVA)  desde  el 
punto  de  vista  de  la  regresion. 

Asociados  con  toda  suma  de  cuadrados  estan  sus  gl,  es  decir,  el  numero  de  observaciones 
independientes  en  las  que  se  basa.  La  SCT  tiene  n  —  1  gl  porque  se  pierde  1  gl  en  el  calculo  de  la 
media  muestral .  La  SCR  tiene  n  —  2  gl.  (qPor  que?)  ( Nota :  Esto  solo  es  valido  para  el  modelo  de 
regresion  con  dos  variables  con  presencia  del  intercepto  fi\.)  SCE  tiene  1  gl  (de  nuevo,  esto  solo 
vale  para  el  caso  de  dos  variables),  lo  cual  se  deduce  de  que  SCE  —  P2H  xf  sea  una  funcion 
solo  de  fa,  pues  se  conoce  J2  xf- 


16 Vease  su  artlculo  citado  en  la  nota  1  3,  p.  1 271 . 

17  Para  una  perspectiva  un  tanto  distinta,  vease  Carter  Hill,  William  Griffiths  y  George  Judge,  Undergraduate 
Econometrics,  Wiley  &  Sons,  Nueva  York,  2001,  p.  108. 
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TABLA  5.3 

Tabla  ANOVA  para  el 

Fuente  de  variacion 

SC* 

E9i=ftj:xi 

gi 

sept 

modelo  de  regresion  con 

Debido  a  la  regresion  (SCE) 

1 

ftiEft 

dos  variables 

Debido  a  los  residuos  (SCR) 

Eft 

n  —  2 

n  —  2 

SCT 

Eyf 

n  —  1 

*  SC  significa  suma  de  cuadrados. 

t  Significa  suma  de  cuadrados  promedio,  la  cual  se  obtiene  al  dividir  SC  entre  el  numero  de  gl. 


Reorganicemos  las  sumas  de  cuadrados  y  sus  gl  asociados  en  la  tabla  5.3,  que  es  la  forma  es- 
tandar  de  la  tabla  AOV,  denominada  algunas  veces  tabla  ANOVA.  Con  la  informacion  de  la  tabla 
5.3,  consideremos  ahora  la  siguiente  variable: 


SCP  de  SCE 
SCP  de  SRC 

42E*2 

E“?/(«  -  2) 

ft  E*2 


(5.9.1) 


Si  suponemos  que  las  perturbaciones  m,  estan  normalmente  distribuidas,  lo  cual  se  cumple 
para  el  MCRLN,  y  si  la  hipotesis  nula  ( Hq )  es  que  jio  —  0,  puede  demostrarse  que  la  variable  F 
de  la  ecuacion  (5.9.1)  satisface  la  distribucion  F  con  1  gl  en  el  numerador  y  (n  —  2)gl  en  el  de- 
nominador.  (Vease  la  prueba  en  el  apendice  5 A,  seccion  5 A. 3.  Las  propiedades  generales  de  la 
distribucion  F  se  explican  en  el  apendice  A.) 

<,Quc  uso  puede  hacerse  de  la  razon  F  anterior?  Puede  demostrarse18  que 

E  (ft  £  x2)  =a2  +  Pi  £ xf  (5.9.2) 

y 

e'^L  =  E{&2)  =  a2  (5.9.3) 

n  —  2 

(Observe  que  /b  y  ct2  al  lado  derecho  de  estas  ecuaciones  son  los  verdaderos  parametros.)  Por 
tanto,  si  P2  es  en  realidad  cero,  ambas  ecuaciones  (5.9.2)  y  (5.9.3)  proporcionan  estimaciones 
identicas  del  verdadero  a2.  En  esta  situacion,  la  variable  explicativa  X no  tiene  influencia  lineal 
alguna  sobre  Y,  y  toda  la  variacion  en  Y  se  explica  con  las  perturbaciones  aleatorias  u,.  Por  otra 
parte,  si  P2  es  diferente  de  cero,  (5.9.2)  y  (5.9.3)  seran  diferentes  y  parte  de  la  variacion  en  Y  se 
atribuira  a  X.  Por  consiguiente,  la  razon  F  de  (5.9.1)  constituye  una  prueba  de  la  hipotesis  nula 
Hq:  P2  —  0.  Como  todas  las  cantidades  que  forman  parte  de  esta  ecuacion  se  obtienen  de  la  mues- 
tra  disponible,  esta  razon  F  constituye  un  estadistico  de  prueba  para  verificar  la  hipotesis  nula 
de  que  el  verdadero  P2  es  igual  a  cero.  Solo  debe  calcularse  la  razon  F  y  compararla  con  el  valor 
critico  F  obtenido  de  las  tablas  F  en  el  nivel  de  significance  seleccionado,  u  obtener  el  valor  p 
del  estadistico  F  calculado. 


18  Para  una  demostracion,  vease  K.  A.  Brownlee,  Statistical  Theory  and  Methodology  in  Science  and  Engineering, 
John  Wiley  &  Sons,  Nueva  York,  1 960,  pp.  278-280. 
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TABLA  5.4 

Tabla  ANOVA  para  el 

Fuente  de  variacion 

SC 

gi 

SCP 

F  95.4255 

ejemplo  de  los  salarios  y 

Debido  a  la  regresion  (SCE) 

95.4255 

i 

95.4255 

el  nivel  de  escolaridad 

0.881 1 

Debido  a  los  residuos  (SCR) 

9.6928 

11 

0.8811 

=  108.3026 

SCT 

105.1183 

12 

Para  esclarecer  esto,  continuamos  con  el  ejemplo  ilustrativo.  La  tabla  ANOVA  para  este  ejem- 
plo  se  presenta  en  la  tabla  5.4.  El  valor  F  calculado  es  108.3026.  El  valor p  de  este  estadlstico  F 
correspondiente  a  1  y  8  gl  no  puede  obtenerse  de  la  tabla  F  dada  en  el  apendice  D,  pero  con  tablas 
estadlsticas  electronicas  se  demuestra  que  el  valor  p  es  0.0000001,  una  probabilidad  en  efecto 
muy  pequena.  Si  escoge  el  metodo  del  nivel  de  significance  para  la  prueba  de  hipotesis  y  fij a  a  en 
0.01,  o  en  un  nivel  de  1%,  se  vera  que  la  F  calculada  de  108.3026  es  obviamente  significativa  en 
este  nivel.  Por  tanto,  si  rechazamos  la  hipotesis  nula  de  que  —  0,  la  probabilidad  de  cometer 
un  error  tipo  I  es  muy  pequena.  Para  todo  fin  practico,  la  muestra  no  pudo  provenir  de  una  pobla- 
cion  con  un  valor  /L  igual  a  cero,  y  se  puede  concluir  con  gran  confianza  que  X,  la  educacion,  si 
afecta  Y,  el  salario  promedio. 

Consulte  el  teorema  5.7  del  apendice  5A.1,  que  establece  que  el  cuadrado  del  valor  t  con  k  gl 
es  un  valor  F  con  1  gl  en  el  numerador  y  k  gl  en  el  denominador.  En  nuestro  ejemplo,  si  supone- 
mos  que  Hq\  fF  —  0,  entonces  con  (5.3.2)  se  verifica  facilmente  que  el  valor  t  estimado  es  10.41. 
Este  valor  t  tiene  1 1  gl.  Segiin  la  misma  hipotesis  nula,  el  valor  F  era  108.3026  con  1  y  1 1  gl.  De 
donde  ( 10.3428)2  =  valor  F,  excepto  por  errores  de  redondeo. 

Asi,  las  pruebas  t  y  F  proporcionan  dos  formas  alternas,  pero  complementarias,  de  probar 
la  hipotesis  nula  de  que  =  0.  Si  este  es  el  caso,  (',por  que  no  solo  confiar  en  la  prueba  t  y  no 
preocuparse  por  la  prueba  F  y  el  analisis  de  varianza  que  la  acompana?  Para  el  modelo  con  dos 
variables,  en  realidad  no  es  necesario  recurrir  a  la  prueba  F.  Pero  cuando  consideremos  el  tema 
de  la  regresion  multiple,  veremos  que  la  prueba  F  tiene  diversas  aplicaciones  interesantes  que  la 
hacen  un  metodo  muy  util  y  eficaz  para  demostrar  hipotesis  estadisticas. 


5.10  Aplicacion  del  analisis  de  regresion: 
problema  de  prediccion 

Con  base  en  los  datos  muestrales  de  la  tabla  3.2  se  obtuvo  la  siguiente  regresion  muestral: 


%  =  -0.0144  +  0.7240A,- 


(3.6.2) 


donde  Yl  es  el  estimador  del  verdadero  E(Y{)  correspondiente  a  A  dada.  (',Dc  que  sirve  esta  re¬ 
gresion  historica?  Para  “predecir”  o  “pronosticar”  el  salario  promedio  futuro  Y  correspondiente 
a  algun  nivel  dado  de  escolaridad  X.  Ahora,  hay  dos  clases  de  predicciones:  1)  la  prediccion  del 
valor  de  la  media  condicional  de  Y correspondiente  a  un  valor  escogido  X,  por  ejemplo,  X0,  que  es 
el  punto  sobre  la  linea  de  regresion  poblacional  misma  (vease  la  figura  2.2),  y  2)  la  prediccion  de 
un  valor  individual  Y  correspondiente  a  X0.  Estas  dos  predicciones  se  llaman  prediccion  media 
y  prediccion  individual. 
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Prediccion  media19 

Para  ordenar  las  ideas,  suponga  que  Xq  —  20  y  deseamos  predecir  E(Y \Xq  —  20).  Ahora,  puede 
demostrarse  que  la  regresion  historica  (3.6.2)  proporciona  la  estimacion  puntual  de  esta  predic¬ 
cion  media  de  la  siguiente  forma: 


Yo  —  +  P2X0 

=  -0.0144  +  0.7240(20)  (5.10.1) 

=  14.4656 

donde  Yq  —  estimador  de  E(Y\Xq).  Puede  comprobarse  que  este  predictor  puntual  es  el  mejor 
estimador  lineal  e  insesgado  (MELI). 

Como  >0  es  un  estimador,  es  probable  que  este  sea  diferente  de  su  verdadero  valor.  La  diferen- 
cia  entre  los  dos  valores  dara  alguna  idea  del  error  de  prediccion  o  pronostico.  Para  evaluar  este 
error  es  necesario  encontrar  la  distribucion  muestral  de  Yq.  En  el  apendice  5A,  seccion  5A.4,  se 
demuestra  que  en  la  ecuacion  (5.10.1)  Yq  esta  normalmente  distribuida  con  media  (fi\  +  P2X0)  y 
una  varianza  dada  por  la  siguiente  formula: 


var(70)  =  o2 


1 

-  + 
n 


(X0-X)21 
£x,2  . 


(5.10.2) 


A1  reemplazar  la  a2  desconocida  por  su  estimador  insesgado  a2,  vemos  que  la  variable 


Yq  -  (li  +  foXp) 

ee(Eo) 


(5.10.5) 


sigue  una  distribucion  /  con  n  —  2  gl.  La  distribucion  t  sirve  por  consiguiente  para  construir  in¬ 
tervalos  de  confianza  para  el  verdadero  E(Yq  \  Xq)  y  pruebas  de  hipotesis  acerca  de  tal  valor  de  la 
manera  usual,  a  saber, 


[A  +  $2X0  —  ta/2  ee  (7o)  <  P\  +  P2X0  <  fi\  +  ($2X0  +  ta/2  ee  (Po)]  —  1  —  a 

(5.10.4) 


donde  ee(Po)  se  obtiene  de  (5.10.2). 

Para  nuestros  datos  (vease  la  tabla  3.2), 


var  (70)  =  0.8936 


1 

13 


(20-  12)2' 
182 


=  0.3826 


y 


ee(P0)  =  0.6185 

Por  tanto,  el  intervalo  de  confianza  a  95%  para  el  verdadero  E(  Y\  Xq)  —  +  p2Xo  esta  dado  por 

14.4656  -  2.201(.6185)  <  E(Y0  \  X  =  20)  <  14.4656  =  2.20(0.6185) 


19  Para  las  pruebas  de  las  distintas  afirmaciones,  vease  el  apendice  5A,  seccion  5A.4. 
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FIGURA  5.6 

Intervalos  (bandas)  de 
confianza  para  la  media 
de  Yy  los  valores  indivi¬ 
duates  de  Y. 


Y 


X 


es  decir. 


13.1043  <  E(Y\X=  20)  <  15.8260  (5.10.5) 

Asi,  dado  Xq  —  100,  en  muestreo  repetido,  en  95  de  cada  100  intervalos  como  (5.10.5)  estara  el 
verdadero  valor  medio;  la  mejor  estimacion  del  verdadero  valor  medio  es,  por  supuesto,  la  esti- 
macion  puntual  75.3645. 

Si  obtenemos  intervalos  de  confianza  a  95%  como  (5.10.5)  por  cada  valor  de Xen  la  tabla  3.2, 
se  obtiene  lo  que  se  conoce  como  intervalo  de  confianza  o  banda  de  confianza,  para  la  funcion 
de  regresion  poblacional,  que  se  presenta  en  la  figura  5.6. 


Prediccion  individual 

Si  lo  que  interesa  es  predecir  un  valor  individual  Y,  Yq  correspondiente  a  un  valor  dado  de  X,  di- 
gamos,  Xq,  entonces,  como  se  muestra  en  el  apendice  5,  section  5A.4,  el  mejor  estimador  lineal 
insesgado  de  Yq  esta  dado  tambien  por  (5.10.1),  pero  su  varianza  es  la  siguiente: 


var ( Yq  -  Y0)  =  E[Y0  -  Y0]2  =  a2 


1 

1  +  -  + 
n 


(Xo-X)2l 


(5.10.6) 


Ademas,  se  demuestra  que  Y0  tambien  sigue  una  distribucion  normal  con  media  y  varianza  dadas 
por  (5.10.1)  y  (5.10.6),  respectivamente.  A1  sustituir  a2  por  la  desconocida  a2,  se  colige  que 


Yo-Y0 
ee  (Yo-Yo) 
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tambien  sigue  una  distribucion  t.  Por  consiguiente,  la  distribucion  t  sirve  para  inferir  sobre  la 
verdadera  Yq.  A1  continuar  con  el  ejemplo,  vemos  que  la  prediccion  puntual  de  Yq  es  14.4656, 
igual  a  Yo>  y  su  varianza  es  1.2357  (el  lector  debe  verificar  este  calculo).  Por  tanto,  el  intervalo  de 
confianza  a  95%  para  Yq  correspondiente  a  Xq  —  100  es 

(12.0190  <  Y0  \X0  =  20  <  16.9122)  (5.10.7) 

Si  comparamos  este  intervalo  con  (5.10.5),  vemos  que  el  intervalo  de  confianza  para  la  Yq 
individual  es  mas  amplio  que  el  intervalo  para  el  valor  medio  de  Yq.  Q,Por  que?)  Calculamos 
los  intervalos  de  confianza  como  en  (5.10.7)  condicionales  a  los  valores  de  X  dados  en  la  tabla 
3.2  y  se  obtiene  la  banda  de  confianza  a  95%  para  los  valores  individuales  Y correspondientes  a 
estos  valores  de  X.  Esta  banda  de  confianza,  al  igual  que  la  banda  de  confianza  para  Yq  asocia- 
da  con  los  mismos X,  se  muestran  en  la  figura  5.6. 

Note  una  caracteristica  importante  de  las  bandas  de  confianza  de  la  figura  5.6.  La  amplitud 
mas  pequena  de  estas  bandas  se  presenta  cuando  Xq  —  X.  (^Por  que?)  Sin  embargo,  aumenta 
considerablemente  a  medida  que  Xq  se  aleja  de  X.  (^Por  que?)  Este  cambio  indicaria  que  la  capa- 
cidad  de  prediccion  de  la  linea  de  regresion  muestral  historica  decrece  mucho  a  medida  que  Xq 
se  aleja  cada  vez  mas  de  X.  Por  consiguiente,  se  debe  tener  cuidado  al  “extrapolar”  la  linea 
de  regresion  historica  para  predecir  E(Y \  A0)  o  F0  asociada  a  una  Xq  dada  muy  aiejada  de 
la  media  muestral  X. 


5.11 


Informe  de  resnltados  del  analisis  de  regresion 


Hay  diversas  formas  de  presentar  los  resultados  de  un  analisis  de  regresion;  sin  embargo,  en  este 
texto  utilizaremos  el  siguiente  formato,  con  el  ejemplo  de  los  salarios  y  el  nivel  de  escolaridad 
del  capitulo  3  a  manera  de  ilustracion: 


Yi  =  -0.0144  + 

0.7240A/ 

ee  =  (0.9317) 

(0.0700) 

r2  — 

0.9065 

t  =  (-0.0154) 

(10.3428) 

gl  = 

11 

p  =  (0.987) 

(0.000) 

Fin  = 

108.30 

En  la  ecuacion  (5.11.1),  las  cifras  del  primer  conjunto  de  parentesis  son  los  errores  estandar 
estimados  de  los  coeficientes  de  regresion;  las  cifras  del  segundo  conjunto  son  los  valores  t  es- 
timados  calculados  de  (5.3.2)  segiin  la  hipotesis  nula  de  que  el  verdadero  valor  poblacional  de 
cada  coeficiente  de  regresion  individual  es  cero  (es  decir,  10.3428  =  00700);  7  ^as  c*fras  del tercer 
grupo  son  los  valores  p  estimados.  Por  tanto,  para  1 1  gl,  la  probabilidad  de  obtener  un  valor  t 
igual  o  mayor  que  10.3428  es  de  0.00009,  o  practicamente  cero. 

Al  presentar  los  valores  p  de  los  coeficientes  t  estimados,  se  aprecia  de  inmediato  el  nivel 
exacto  de  significancia  de  cada  valor  t  estimado.  Asi,  conforme  a  la  hipotesis  nula  de  que  el  ver¬ 
dadero  valor  de  la  pendiente  poblacional  es  cero  (es  decir,  que  el  nivel  de  escolaridad  no  produce 
ningun  efecto  en  el  salario  promedio),  la  probabilidad  exacta  de  obtener  un  valor  t  igual  o  mayor 
que  10.3428  es  practicamente  cero.  Recuerde  que  cuanto  menor  sea  el  valor p,  menor  sera  tam¬ 
bien  la  probabilidad  de  cometer  un  error  si  se  rechaza  la  hipotesis  nula. 


130  Parte  Uno  Modelos  de  regresion  uniecuacionales 


Ya  mostramos  la  conexion  entre  los  estadisticos  F  y  t,  a  saber,  F\ ^  —  t%.  Segun  la  hipotesis 
nula  de  que  el  verdadero  /b  =  0,  la  ecuacion  (5.11.1)  muestra  que  el  valor  F  es  108.30  (para 
1  gl  en  el  numerador  y  11  gl  en  el  denominador),  y  el  valor  t  es  cercano  a  10.34  (11  gl);  como 
se  esperaba,  el  primer  valor  es  igual  al  ultimo  valor  elevado  al  cuadrado,  salvo  por  errores  de 
aproximacion.  Ya  se  analizo  la  tabla  ANOVA  para  este  problema. 


5.12  Evaluacion  de  los  resultados  del  analisis  de  regresion 


En  la  figura  1.4  de  la  Introduccion  esbozamos  la  anatomia  de  la  creacion  de  modelos  econome- 
tricos.  Ahora  que  presentamos  los  resultados  del  analisis  de  regresion  del  ejemplo  de  salarios 
y  niveles  de  escolaridad  en  (5.11.1)  cabe  cuestionar  la  bondad  del  modelo  ajustado.  (',Quc  tan 
“bueno”  es  el  modelo  ajustado?  Necesitamos  ciertos  criterios  para  responder  esta  pregunta. 

Primero,  /.estan  los  signos  de  los  coeficientes  estimados  de  acuerdo  con  las  expectativas  teo- 
ricas  o  previas?  A  priori,  (F  en  el  ejemplo  de  los  salarios  y  el  nivel  de  escolaridad  debe  ser  posi- 
tivo.  En  el  presente  ejemplo,  lo  es.  Segundo,  si  la  teoria  sostiene  que  la  relacion  no  debe  ser 
solo  positiva  sino  tambien  estadisticamente  significativa,  /,es  el  caso  en  la  presente  aplicacion? 
Como  analizamos  en  la  seccion  5.1 1,  el  coeficiente  del  nivel  de  escolaridad  no  solo  es  positivo, 
sino  tambien  estadisticamente  significativo,  es  decir,  diferente  de  cero;  el  valor  p  del  valor  t 
estimado  es  muy  pequeno.  Valen  los  mismos  comentarios  para  el  coeficiente  del  intercepto.  Ter- 
cero,  ^que  tan  bien  explica  el  modelo  de  regresion  la  variacion  en  el  ejemplo?  Se  puede  responder 
con  r2.  En  nuestro  ejemplo,  r2  es  de  alrededor  de  0.90,  un  valor  muy  alto  si  consideramos  que  r2 
puede  ser  maximo  1 . 

Asi,  parece  muy  bueno  el  modelo  escogido  para  explicar  el  comportamiento  de  los  salarios 
promedio.  Pero  antes  de  comprometerse  con  el,  seria  interesante  averiguar  si  satisface  los  su- 
puestos  del  MCRLN.  No  veremos  ahora  los  diversos  supuestos,  pues  la  simplicidad  del  modelo 
es  clara.  Solo  hay  un  supuesto  que  se  puede  verificar,  a  saber,  el  de  normalidad  del  termino  de 
perturbacion,  u,.  Recuerde  que  las  pruebas  t  y  F  requieren  que  el  termino  de  error  siga  una  distri¬ 
bucion  normal.  De  lo  contrario,  el  procedimiento  de  prueba  no  sera  valido  en  muestras  pequenas, 
o  finitas. 


Pruebas  de  normalidad 

Aunque  se  han  estudiado  diversas  pruebas  de  normalidad  en  la  teoria,  solo  consideraremos  tres: 
1)  histograma  de  residuos,  2)  grafica  de  probabilidad  normal  (GPN)  y  3)  prueba  Jarque-Bera. 

Histograma  de  residuos 

Es  un  simple  dispositivo  grafico  para  saber  algo  sobre  la  forma  de  la  funcion  de  densidad  pobla- 
cional  (FDP)  de  una  variable  aleatoria.  En  el  eje  horizontal  se  dividen  los  valores  de  la  variable  de 
interes  (por  ejemplo,  los  residuos  de  MCO)  en  intervalos  convenientes,  y  sobre  cada  intervalo 
de  clase  se  construyen  rectangulos  cuya  altura  sea  igual  al  numero  de  observaciones  (es  decir,  la 
frecuencia)  para  ese  intervalo  de  clase.  Si  mentalmente  se  coloca  la  curva  de  distribucion  normal 
en  forma  de  campana  sobre  el  histograma,  se  tendra  cierta  idea  sobre  la  pertinencia  o  no  de  la 
aproximacion  normal  (FDP).  En  la  figura  5.7  se  presenta  el  histograma  de  residuos  correspon- 
diente  a  la  regresion  de  salarios  y  nivel  de  escolaridad. 

Este  diagrama  muestra  que  los  residuos  no  tienen  distribucion  normal  perfecta;  para  una  va¬ 
riable  distribuida  normalmente,  la  asimetria  (una  medida  de  la  simetria)  debe  ser  cero,  y  la  cur- 
tosis  (que  mide  si  la  distribucion  normal  es  alta  o  baja),  3. 

Siempre  es  aconsejable  trazar  el  histograma  de  los  residuos  de  cualquier  regresion  como  me- 
todo  aproximado  y  rapido  para  probar  el  supuesto  de  normalidad. 
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FIGURA  5.7 

Histograma  de  residuos 
de  los  datos  de  salarios  y 
nivel  de  escolaridad. 


Histograma 

(La  respuesta  es  el  salario  promedio  por  hora) 


Residuo 


Grafica  de  probabilidad  normal 

Un  dispositivo  grafico  relativamente  sencillo  para  estudiar  la  forma  de  la  funcion  de  densidad 
de  probabilidad  (FDP)  de  una  variable  aleatoria  es  la  grafica  de  probabilidad  normal  (GPN), 
la  cual  utiliza  el  papel  de  probabilidad  normal,  especialmente  disenado  para  graficas.  Sobre  el 
eje  horizontal,  o  eje  X,  se  grafican  los  valores  de  la  variable  de  interes  (por  ejemplo,  los  residuos 
de  MCO,  ul),  y  sobre  el  eje  vertical,  o  eje  Y,  el  valor  esperado  de  esta  variable  si  estuviera  nor- 
malmente  distribuida.  Por  tanto,  si  la  variable  fuese  de  la  poblacion  normal,  la  GPN  seria  mas  o 
menos  una  linea  recta.  La  GPN  de  los  residuos  correspondientes  a  la  regresion  de  los  salarios  y 
el  nivel  de  escolaridad  se  muestra  en  la  figura  5.8,  que  se  obtuvo  con  el  software  MINITAB,  ver¬ 
sion  15.  Como  se  observo  antes,  si  la  linea  resultante  en  la  GPN  es  aproximadamente  una  linea 
recta,  se  puede  concluir  que  la  variable  de  interes  esta  normalmente  distribuida.  En  la  figura  5.7 
se  aprecia  que  los  residuos  del  ejemplo  estan  aproximadamente  distribuidos  normalmente,  pues 
al  parecer  una  linea  recta  se  ajusta  a  los  datos  de  forma  razonable. 

Con  el  MINITAB  tambien  se  obtiene  la  prueba  de  normalidad  Anderson-Darling,  conocida 
como  estadistico  A2.  La  hipotesis  nula  es  que  la  variable  en  cuestion  esta  normalmente  distri¬ 
buida.  Como  se  muestra  en  la  figura  5.8,  para  el  ejemplo,  el  estadistico  A2  calculado  es  0.289.  El 
valor  p  de  obtener  tal  valor  de  A2  es  de  0.558,  razonablemente  alto.  Por  consiguiente,  no  recha- 
zamos  la  hipotesis  de  que  los  residuos  del  ejemplo  ilustrativo  estan  normalmente  distribuidos. 
A  proposito,  en  la  figura  5.8  se  muestran  los  parametros  de  la  distribucion  (normal),  la  media  es 
aproximadamente  0,  y  la  desviacion  estandar,  de  casi  0.8987. 


Prueba  de  normalidad  de  Jarque-Bera  (JB)20 

La  prueba  de  normalidad  JB  es  una  prueba  asintotica,  o  de  muestras  grandes.  Tambien  se  basa 
en  los  residuos  de  MCO.  Esta  prueba  calcula  primero  la  asimetria  y  la  curtosis  (analizadas  en  el 
apendice  A)  de  los  residuos  de  MCO,  con  el  siguiente  estadistico  de  prueba: 


JB  —  n 


(K  ~  3)2~ 

24 


(5.12.1) 


20  Vease  C.M.  Jarque  y  A.K.  Bera,  "A  Test  for  Normality  of  Observations  and  Regression  Residuals",  Internatio¬ 
nal  Statistical  Review,  vol.  55,  1 987,  pp.  1 63-1  72. 
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FIGURA  5.8 
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donde  n  —  tamano  de  la  muestra,  S  —  coeficiente  de  asimetria  y  K  —  coeficiente  de  curtosis. 
Para  una  variable  normalmente  distribuida,  S  —  0  y  K  —  3.  Por  tanto,  la  prueba  de  normalidad  JB 
constituye  una  prueba  de  la  hipotesis  conjunta  de  que  Sy  K  son  0  y  3,  respectivamente.  En  este 
caso,  se  espera  que  el  valor  del  estadistico  JB  sea  igual  a  cero. 

De  acuerdo  con  la  hipotesis  nula,  la  cual  afirma  que  los  residuos  estan  normalmente  distribui- 
dos,  Jarque  y  Bera  mostraron  que  asintoticamente  (es  decir,  en  muestras  grandes)  el  estadistico 
JB  dado  en  (5.12.1)  sigue  la  distribution  ji  cuadrada,  con  2  gl.  Si  el  valor  p  calculado  del  esta¬ 
distico  JB  es  lo  bastante  bajo  en  una  aplicacion,  lo  cual  sucedera  si  el  valor  del  estadistico  difiere 
en  gran  medida  de  cero,  se  puede  rechazar  la  hipotesis  de  que  los  residuos  estan  normalmente 
distribuidos.  Pero  si  el  valor  p  es  razonablemente  alto,  lo  cual  sucede  cuando  el  valor  del  estadis¬ 
tico  esta  cerca  de  cero,  no  rechazamos  la  suposicion  de  normalidad. 

En  nuestro  ejemplo,  el  estadistico  JB  estimado  para  la  regresion  de  salarios  y  nivel  de  educa- 
cion  es  0.8286.  La  hipotesis  nula  de  que  los  residuos  en  el  presente  ejemplo  estan  distribuidos 
normalmente  no  puede  rechazarse,  pues  el  valor  p  de  obtener  un  estadistico  JB  igual  o  mayor 
que  0.8286  es  de  alrededor  de  0.66,  o  66%.  Esta  probabilidad  es  muy  alta.  Observe  que,  aunque 
la  regresion  tiene  13  observaciones,  estas  se  obtuvieron  de  una  muestra  de  528  observaciones,  lo 
que  parece  razonablemente  alto. 


Grafico  de  probabilidad  de  RESI1 

Normal 
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Otras  pruebas  del  ajuste  del  modelo 

Recuerde  que  el  MCRLN  tiene  muchos  supuestos  adicionales  al  de  la  normalidad  del  termino 
de  error.  A  medida  que  examinemos  la  teoria  econometrica,  consideraremos  diversas  pruebas  de 
la  bondad  del  modelo  (vease  el  capitulo  13).  Hasta  entonces,  recuerde  que  la  elaboracion  de  mo¬ 
delos  de  regresion  se  basa  en  diversos  supuestos  simplificadores  que  quiza  no  sean  validos  en 
todos  los  casos. 
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Un  ejemplo  para 
concluir 


Regresemos  al  ejemplo  3.2  respecto  del  gasto  alimentario  en  India.  Con  los  datos  de  (3.7.2)  y  el 
formato  (5.11.1),  obtenemos  la  siguiente  ecuacion  para  el  gasto: 

GasAlij=  94.2087  +  0.4368  GasTot, 


ee=  (50.8563) 

(0.0783) 

t=  (1.8524) 

(5.5770) 

p=  (0.0695) 

(0.0000)* 

r2  =  0.3698; 

gl  =  53 

Fi,53  =  31.1034 

(valor  p  =  0.0000)* 

donde  *  significa  extremadamente  pequeno. 

En  primer  lugar,  interpretemos  esta  regresion.  Como  se  esperaba,  hay  una  relacion  positiva 
entre  el  gasto  alimentario  y  el  gasto  total.  Si  este  ultimo  se  incrementara  una  rupia,  en  prome- 
dio,  el  gasto  en  comida  aumentarfa  casi  44  paisas.  Si  el  gasto  total  fuera  nulo,  el  gasto  promedio 
en  comida  serfa  mas  o  menos  de  94  rupias.  Por  supuesto,  esta  interpretacion  mecanica  del 
intercepto  quiza  no  tenga  mucho  sentido  en  la  economfa.  El  valor  r2  de  casi  0.37  significa  que 
37%  de  la  variacion  en  el  gasto  alimentario  se  explica  por  el  gasto  total,  una  aproximacion  para 
el  ingreso. 

Suponga  que  deseamos  probar  la  hipotesis  nula  de  que  no  existe  relacion  entre  el  gasto  ali¬ 
mentario  y  el  total;  es  decir,  el  verdadero  coeficiente  de  la  pendiente  =  0.  El  valor  estimado 
de  es  0.4368.  Si  la  hipotesis  nula  es  cierta,  £cual  es  la  probabilidad  de  obtener  un  valor  igual  a 
0.4368?  Segun  la  hipotesis  nula,  se  observa  de  (5.1 2.2)  que  el  valor  t  es  5.5770  y  que  el  valor  p 
de  obtener  dicho  valor  te s  practicamente  cero.  En  otras  palabras,  se  puede  rechazar  la  hipotesis 
nula  con  toda  justificacion.  Pero  suponga  que  la  hipotesis  nula  fuese  que  P2  =  0.5,  ique  pasarfa? 
Con  la  prueba  t  obtenemos 


0.4368-0.5 

0.0783 


-0.8071 


La  probabilidad  de  obtener  una  |t|  de  0.8071  es  mayor  que  20%.  Por  tanto,  no  se  rechaza  la 
hipotesis  de  que  el  verdadero  valor  de  sea  0.5. 

Observe  que,  conforme  a  la  hipotesis  nula,  el  verdadero  coeficiente  de  la  pendiente  es  cero, 
el  valor  Fes  31 .1 034,  como  se  muestra  en  (5.1 2.2).  Segun  la  misma  hipotesis  nula,  se  obtiene  un 
valor  t  de  5.5770.  Si  elevamos  al  cuadrado  este  valor,  se  obtiene  31 .1 029,  que  es  casi  el  mismo 
que  el  valor  F,  con  lo  cual  se  muestra  de  nuevo  la  estrecha  relacion  entre  f  y  el  estadfstico  F. 
( Nota :  el  numero  de  gl  del  numerador  del  estadfstico  Fdebe  ser  1,  lo  cual  ocurre  en  este  caso.) 

Con  los  residuos  estimados  de  la  regresion,  £que  podemos  decir  respecto  de  la  distribucion 
de  probabilidad  del  termino  de  error?  La  respuesta  se  da  en  la  figura  5.9.  Como  ahf  se  muestra, 


FIGURA  5.9 
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( continuation ) 


los  residuos  de  la  regresion  del  gasto  alimentario  parecen  estar  simetricamente  distribuidos.  Al 
aplicarse  la  prueba  Jarque-Bera,  se  hace  evidente  que  el  estadfstico  JB  es  casi  de  0.2576,  y  que  la 
probabilidad  de  obtener  tal  estadfstico  con  el  supuesto  de  normalidad  es  mas  o  menos  de  88%. 
En  consecuencia,  no  rechazamos  la  hipotesis  de  que  los  terminos  de  error  estan  normalmente 
distribuidos.  Pero  hay  que  tener  presente  que  el  tamano  de  la  muestra  de  55  observaciones  tal 
vez  no  sea  lo  bastante  grande. 

Dejamos  al  lector  la  tarea  de  establecer  los  intervalos  de  confianza  para  los  dos  coeficientes 
de  regresion,  obtener  la  grafica  de  probabilidad  normal,  y  realizar  predicciones  individuales  y 
para  la  media. 


Resumen  y 
conclusiones 


1 .  La  estimacion  y  las  pruebas  de  hipotesis  constituyen  las  dos  ramas  principales  de  la  estadistica 
clasica.  Despues  de  analizar  el  problema  de  la  estimacion  en  los  capitulos  3  y  4,  en  este  capi- 
tulo  contemplamos  las  pruebas  de  hipotesis. 

2.  Las  pruebas  de  hipotesis  responden  a  esta  pregunta:  /,un  determinado  hallazgo  es  compatible 
con  la  hipotesis  planteada  o  no  lo  es? 

3.  Hay  dos  enfoques  mutuamente  complementarios  para  responder  a  la  pregunta  anterior:  inter¬ 
valos  de  confianza  y  pruebas  de  significancia. 

4.  El  metodo  de  intervalos  de  confianza  se  basa  en  el  concepto  de  estimacion  por  intervalos.  Un 
estimador  por  intervalos  es  un  intervalo  o  rango  construido  de  manera  que  tiene  una  probabi¬ 
lidad  especifica  de  contener  dentro  de  sus  limites  al  verdadero  valor  del  parametro  descono- 
cido.  El  intervalo  as!  construido  se  conoce  como  intervalo  de  confianza,  que  suele  definirse 
en  forma  porcentual,  como  90  o  95%.  El  intervalo  de  confianza  proporciona  un  conjunto  de 
hipotesis  factibles  acerca  del  valor  del  parametro  desconocido.  Si  el  valor  al  que  se  refiere 
la  hipotesis  nula  se  encuentra  en  el  intervalo  de  confianza,  la  hipotesis  no  se  rechaza,  y  si  se 
encuentra  fuera  de  este  intervalo,  la  hipotesis  nula  puede  rechazarse. 

5.  En  el  procedimiento  de  pruebas  de  significancia  se  elabora  un  estadistico  de  prueba  y  se 
examina  su  distribucion  muestral  segun  la  hipotesis  nula.  El  estadistico  de  prueba  sigue  con 
frecuencia  una  distribucion  de  probabilidad  conocida  como  normal,  t,  F,  o  ji  cuadrada.  Una 
vez  calculado  el  estadistico  de  prueba  (por  ejemplo,  el  estadistico  t)  a  partir  de  los  datos  dis- 
ponibles,  resulta  sencillo  obtener  su  valor  p.  El  valor  p  da  la  probabilidad  exacta  de  obtener 
el  estadistico  de  prueba  estimado  conforme  a  la  hipotesis  nula.  Si  este  valor  p  es  pequeno,  se 
rechaza  la  hipotesis  nula,  pero  si  es  grande  puede  no  rechazarse.  El  investigador  debe  decidir 
que  constituye  un  valor  p  pequeno  o  grande.  Al  seleccionar  el  valor  p,  el  investigador  debe 
considerar  la  probabilidad  de  cometer  errores  tipo  I  y  tipo  II. 

6.  En  la  practica,  se  debe  tener  cuidado  al  determinar  a,  la  probabilidad  de  cometer  un  error 
tipo  I,  al  asignarle  valores  arbitrarios,  como  1,  5  o  10%.  Es  mejor  hacer  referencia  al  valor  p 
del  estadistico  de  prueba.  Ademas,  la  significancia  estadistica  de  una  estimacion  no  debe  con- 
fundirse  con  su  significancia  practica. 

7.  Por  supuesto,  las  pruebas  de  hipotesis  suponen  que  el  modelo  seleccionado  para  el  analisis 
emplrico  es  adecuado  en  el  sentido  de  que  no  viola  alguno(s)  del  (los)  supuestos(s)  que  sirven 
de  base  al  modelo  clasico  de  regresion  lineal  normal.  Por  tanto,  las  pruebas  sobre  la  bondad 
del  modelo  deben  preceder  a  las  pruebas  de  hipotesis.  En  este  capitulo  describimos  una  de 
estas  pruebas,  la  prueba  de  normalidad,  cuyo  fin  es  establecer  si  el  termino  de  error  sigue 
una  distribucion  normal.  Como  en  muestras  pequenas,  o  finitas,  las  pruebas  t,F  y  ji  cuadrada 
requieren  el  supuesto  de  normalidad,  es  importante  verificar  formalmente  este  supuesto. 

8.  Si  el  modelo  se  considera  correcto  o  adecuado,  puede  emplearse  para  pronosticar.  Pero  al  pro- 
nosticar  los  valores  futuros  del  regresando  o  variable  dependiente,  no  debe  salirse  demasiado 
del  rango  muestral  de  los  valores  de  la  regresora,  o  variable  explicativa.  De  lo  contrario,  los 
errores  de  pronostico  pueden  aumentar  en  forma  drastica. 
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EJERCICIOS 


Preguntas 

5.1.  Establezca  si  las  siguientes  afirmaciones  son  verdaderas,  falsas  o  inciertas.  Sea  preciso. 

a)  La  prueba  t  de  significance  estudiada  en  este  capitulo  requiere  que  las  distribuciones 
muestrales  de  los  estimadores  f\  y  P2  sigan  una  distribucion  normal. 

b)  Aunque  el  termino  de  perturbacion  en  el  MCRL  no  este  normalmente  distribuido,  los 
estimadores  de  MCO  continuan  siendo  insesgados. 

c)  Si  no  hay  intercepto  en  el  modelo  de  regresion,  las  w,(=  u,)  estimadas  no  sumaran 
cero. 

d)  El  valor  p  y  el  tamano  de  un  estadlstico  de  prueba  tienen  el  mismo  significado. 

e)  En  un  modelo  de  regresion  que  contenga  el  intercepto,  la  suma  de  los  residuos  es  siem- 
pre  cero. 

/)  Si  no  se  rechaza  una  hipotesis  nula,  es  verdadera. 

g)  Entre  mayor  sea  el  valor  de  a2,  mayor  sera  la  varianza  de  ft 2  dada  en  (3.3.1). 

h)  Las  medias  condicional  e  incondicional  de  una  variable  aleatoria  significan  lo  mismo. 

i )  En  una  FRP  de  dos  variables,  si  el  coeficiente  de  la  pendiente  f>2  es  cero,  el  intercepto 
(Jn  se  estima  por  la  media  muestral  Y. 

j)  La  varianza  condicional,  var ( Y,  \  X ,)  =  ct2,  y  la  varianza  incondicional  de  Y,  var ( Y )  = 
er2,  serian  la  misma  si  X  no  tuviera  influencia  en  Y. 

5.2.  Construya  la  tabla  ANOVA  como  la  de  la  tabla  5.4  para  el  modelo  de  regresion  dado  en 
(3.7.2)  y  pruebe  la  hipotesis  de  que  no  existe  relation  entre  el  gasto  en  alimentos  y  el  gasto 
total  en  India. 

5.3.  Consulte  la  regresion  de  la  demanda  de  telefonos  celulares  de  la  ecuacion  (3.7.3). 

a)  <^E1  coeficiente  estimado  del  intercepto  es  significativo  en  el  nivel  de  significancia  de 
5%?  <,Quc  hipotesis  nula  esta  probando? 

b)  E 1  coeficiente  estimado  de  la  pendiente  es  significativo  en  el  nivel  de  significancia  de 
5%?  pEn  que  hipotesis  nula  se  basa? 

c)  Establezca  un  intervalo  de  confianza  a  95%  para  el  verdadero  coeficiente  de  la  pen¬ 
diente. 

d)  ^Cual  es  el  valor  pronosticado  de  la  media  de  los  telefonos  celulares  demandados  si  el 
ingreso  per  capita  es  de  9  000  dolares?  ^Cual  es  el  intervalo  de  confianza  a  95%  para 
el  valor  pronosticado? 

5.4.  Sea  p 2  el  verdadero  coeficiente  de  determination  poblacional.  Suponga  que  desea  probar 
la  hipotesis  de  que  p2  —  0.  Explique  verbalmente  como  probar  esta  hipotesis.  Sugerencia: 
Utilice  la  ecuacion  (3.5.1 1).  Vease  tambien  el  ejercicio  5.7. 

5.5.  Lo  que  se  conoce  como  la  linea  caracteristica  del  analisis  de  inversion  moderno  es  senci- 
llamente  la  linea  de  regresion  obtenida  del  siguiente  modelo: 

fit  =  Oli  +  Pi  fmt  +  U, 

donde  rit  =  la  tasa  de  rendimiento  del  /-esimo  valor  en  el  tiempo  t 

rmt  =  la  tasa  de  rendimiento  del  portafolio  del  mercado  en  el  tiempo  t 
lit  —  termino  de  perturbacion  estocastica 

En  este  modelo,  fy  se  conoce  como  coeficiente  beta  del  z-esimo  valor,  una  medida  del 
riesgo  del  mercado  (o  sistematico)  de  un  valor.* 


*  Vease  Haim  Levy  y  Marshall  Sarnat,  Portfolio  and  Investment  Selection:  Theory  and  Practice,  Prentice-Hall 
International,  Englewood  Cliffs,  Nueva  Jersey,  1984,  capftulo  12. 
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Con  base  en  240  tasas  de  rendimiento  mensuales  para  el  periodo  1956-1976,  Fogler  y  Ga- 
napathy  obtuvieron  la  siguiente  linea  caracterlstica  para  las  acciones  de  IBM  en  relacion  con  el 
indice  de  portafolio  del  mercado  elaborado  en  la  Universidad  de  Chicago:’ 

rit  =  0.7264  +  1.0598rm,  r 2  =  0.4710 

ee  =  (0.3001)  (0.0728)  gl  =  238 

*1.238  =  211.896 

a)  Se  dice  que  un  valor  cuyo  coeficiente  beta  es  mayor  que  uno  es  un  valor  volatil  o  agre- 
sivo.  /Fueron  las  acciones  de  IBM  valores  volatiles  en  el  periodo  que  se  estudia? 

b)  /Es  el  coeficiente  del  intercepto  significativamente  diferente  de  cero?  Si  lo  es,  /cual  es 
su  interpretacion  practica? 

5.6.  La  ecuacion  (5.3.5)  tambien  se  escribe  como 

Pr  \i$2  -  4/2 ee  (fi2)  <  Pi  <  Pi  +  4/2 ee  (&)]  =  1  -  a 

Es  decir,  la  desigualdad  debil  (<)  puede  reemplazarse  por  la  desigualdad  fuerte  (<).  /,Por 
que? 

5.7.  R.  A.  Fisher  derivo  la  distribucion  muestral  del  coeficiente  de  correlacion  definido  en 
(3.5.13).  Si  se  supone  que  las  variables  Ay  Y  tienen  una  distribucion  normal  conjunta,  es 
decir,  si  provienen  de  una  distribucion  normal  bivariada  (vease  el  apendice  4A,  ejercicio 
4.1),  entonces,  segun  el  supuesto  de  que  el  coeficiente  de  correlacion  poblacional  p  es  cero, 
es  posible  demostrar  que  t  —  r* **Jn  —  2/Vl  —  r2  sigue  la  distribucion  t  de  Student  con 
n  —  2  gl.”  Demuestre  que  este  valor  t  es  identico  al  valor  t  dado  en  (5.3.2)  con  la  hipotesis 
nula  de  que  /i2  =  0.  Por  tanto,  establezca  que  con  la  misma  hipotesis  nula  F  —  t2.  (Vease 
la  seccion  5.9.) 

5.8.  Considere  el  siguiente  resultado  de  una  regresion :+ 

%  =  0.2033  +  0.6560A, 
ee  =  (0.0976)  (0.1961) 

r2  —  0.397  SCR  =  0.0544  SCE  =  0.0358 

donde  Y  —  tasa  de  participacion  de  la  fuerza  laboral  (TPFL)  de  las  mujeres  en  1972  y 
X  —  TPFL  de  las  mujeres  en  1968.  Los  resultados  de  la  regresion  se  obtuvieron  de  una 
muestra  de  19  ciudades  de  Estados  Unidos. 

a)  /Como  interpreta  esta  regresion? 

b )  Pruebe  la  hipotesis  fby.  fin  —  1  contra  // 1 :  4>2  >  L  /Que  prueba  utilizaria?  /Por  que? 
/Cuales  son  los  supuestos  subyacentes  de  la(s)  prueba(s)  que  eligio? 

c)  Suponga  que  la  TPFL  para  1968  fue  de  0.58  (o  58%).  Con  base  en  los  resultados  de 
la  regresion  anteriores,  /cual  es  la  TPFL  media  en  1972?  Establezca  un  intervalo 
de  confianza  de  95%  para  la  prediccion  de  la  media. 

d )  /Como  probaria  la  hipotesis  de  que  el  termino  de  error  en  la  regresion  sobre  la  pobla- 
cion  esta  normalmente  distribuido?  Muestre  los  calculos  necesarios. 


*H.  Russell  Fogler  y  Sundaram  Canapathy,  Financial  Econometrics,  Prentice-Hall,  Englewood  Cliffs,  Nueva 
Jersey,  1 982,  p.  1 3. 

** Si  en  realidad  p  es  cero,  Fisher  demostro  que  r  sigue  la  misma  distribucion  t  siempre  que  X  o  Y  esten 
normalmente  distribuidas.  Sin  embargo,  si  p  no  es  igual  a  cero,  ambas  variables  deben  estar  normalmente 
distribuidas.  Vease  R.  L.  Anderson  y  T.  A.  Bancroft,  Statistical  Theory  in  Research,  McGraw-Hill,  Nueva  York, 
1952,  pp.  87-88. 

t  Adaptado  de  Samprit  Chatterjee,  Ali  S.  Hadi  y  Bertram  Price,  Regression  Analysis  by  Example,  3a.  ed.,  Wiley 
Interscience,  Nueva  York,  2000,  pp.  46-47. 
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TABLA  5.5 

Observacion 

Salario 

Gasto 

Observacion 

Salario 

Gasto 

Salario  promedio  y  gasto 
por  alumno  (dolares), 

1 

19  583 

3  346 

27 

22  795 

3  366 

1985 

2 

20  263 

3  114 

28 

21  570 

2  920 

3 

20  325 

3  554 

29 

22  080 

2  980 

Fuente:  National  Education  Asso¬ 

4 

26  800 

4  642 

30 

22  250 

3  731 

ciation,  como  se  publico  e n  Albu¬ 

5 

29  470 

4  669 

31 

20  940 

2  853 

querque  Tribune,  7  de  noviembre 
de  1986. 

6 

26  610 

4  888 

32 

21  800 

2  533 

7 

30  678 

5  710 

33 

22  934 

2  729 

8 

27  170 

5  536 

34 

18  443 

2  305 

9 

25  853 

4  168 

35 

19  538 

2  642 

10 

24  500 

3  547 

36 

20  460 

3  124 

11 

24  274 

3  159 

37 

21  419 

2  752 

12 

27  170 

3  621 

38 

25  160 

3  429 

13 

30  168 

3  782 

39 

22  482 

3  947 

14 

26  525 

4  247 

40 

20  969 

2  509 

15 

27  360 

3  982 

41 

27  224 

5  440 

16 

21  690 

3  568 

42 

25  892 

4  042 

17 

21  974 

3  155 

43 

22  644 

3  402 

18 

20  816 

3  059 

44 

24  640 

2  829 

19 

18  095 

2  967 

45 

22  341 

2  297 

20 

20  939 

3  285 

46 

25  610 

2  932 

21 

22  644 

3  914 

47 

26  015 

3  705 

22 

24  624 

4  517 

48 

25  788 

4  123 

23 

27  186 

4  349 

49 

29  132 

3  608 

24 

33  990 

5  020 

50 

41  480 

8  349 

25 

23  382 

3  594 

51 

25  845 

3  766 

26 

20  627 

2  821 

Ejercicios  empfricos 

5.9.  La  tabla  5.5  proporciona  datos  sobre  el  salario  promedio  de  un  maestro  de  escuela  publica 
(el  sueldo  anual  esta  en  dolares)  y  el  gasto  en  education  publica  por  alumno  (dolares)  para 
1985  en  los  50  estados  y  el  Distrito  de  Columbia  en  Estados  Unidos. 

A  fin  de  averiguar  si  existe  alguna  relacion  entre  el  salario  del  maestro  y  el  gasto 
por  alumno  en  las  escuelas  publicas,  se  sugirio  el  siguiente  modelo:  Sueldo,-  =  +  /L 

Gasto,-  +  Uj,  donde  la  variable  Sueldo  es  el  salario  del  maestro  y  la  variable  Gasto  signifi- 
ca  gasto  por  alumno. 

a)  Grafique  los  datos  y  trace  la  linea  de  regresion. 

b)  Suponga,  con  base  en  el  inciso  a),  que  decide  estimar  el  modelo  de  regresion  dado 
antes.  Obtenga  las  estimaciones  de  los  parametros,  sus  errores  estandar,  r2,  la  SCR  y  la 
SCE. 

c)  Interprete  la  regresion.  /Ticne  sentido  economico? 

d )  Establezca  un  intervalo  de  confianza  de  95%  para  /S2.  /.Rechazaria  la  hipotesis  de  que 
el  verdadero  coeficiente  de  la  pendiente  es  3.0? 

e)  Obtenga  el  valor  individual  pronosticado  y  la  media  del  Sueldo,  si  el  gasto  por  alumno 
es  de  5  000  dolares.  Tambien  establezca  intervalos  de  confianza  de  95%  para  la  verda- 
dera  media  y  el  verdadero  valor  individual  del  Sueldo,  para  la  cifra  correspondiente  al 
gasto. 

/)  /.Como  probaria  la  suposicion  de  la  normalidad  del  termino  de  error?  Muestre  la(s) 
prueba(s)  utilizada(s). 

5.10.  Consulte  el  ejercicio  3.20  para  construir  las  tablas  ANOVA  y  probar  la  hipotesis  de  que  no 
existe  ninguna  relacion  entre  la  productividad  y  la  remuneration  salarial  real.  Haga  esto 
con  el  sector  de  negocios  y  con  el  no  agricola. 
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5.1 1.  Consulte  el  ejercicio  1.7. 

a)  Grafique  los  datos  sobre  impresiones  en  el  eje  vertical  y  el  gasto  publicitario  en  el  ho¬ 
rizontal.  i,Que  tipo  de  relacion  observa? 

b)  /.Seria  apropiado  ajustar  un  modelo  de  regresion  de  dos  variables  a  los  datos?  <,Por  que? 
Si  la  respuesta  es  negativa,  ^,que  tipo  de  modelo  de  regresion  se  ajustaria  a  los  datos? 
('Cucnta  con  las  herramientas  necesarias  para  ajustar  dicho  modelo? 

c)  Suponga  que  no  se  grafican  los  datos  y  que  solo  ajusta  el  modelo  de  regresion  con  dos 
variables  a  los  datos.  Obtenga  los  resultados  usuales  de  la  regresion.  Guarde  dichos  re- 
sultados  para  revisar  despues  este  problema. 

5.12.  Consulte  el  ejercicio  1.1. 

a)  Grafique  el  indice  de  precios  al  consumidor  (IPC)  estadounidense  en  relacion  con  el 
canadiense.  (',Quc  revela  la  grafica? 

b)  Suponga  que  desea  predecir  el  IPC  de  EU  con  base  en  el  canadiense.  Elabore  un  mo¬ 
delo  apropiado. 

c)  Pruebe  la  hipotesis  de  que  no  existe  relacion  entre  ambos  IPC.  Utilice  a  —  5%.  Si 
rechaza  la  hipotesis  nula,  ^significa  que  el  IPC  canadiense  “condiciona”  al  IPC  esta¬ 
dounidense?  ^Por  que? 

5.13.  Consulte  el  ejercicio  3.22. 

a)  Estime  las  dos  regresiones  dadas  en  dicho  ejercicio  y  obtenga  los  errores  estandar,  asi 
como  los  demas  resultados  usuales. 

b)  Pruebe  la  hipotesis  de  que  las  perturbaciones  en  los  dos  modelos  de  regresion  estan 
normalmente  distribuidas. 

c)  En  la  regresion  del  precio  del  oro,  pruebe  la  hipotesis  de  que  /L  —  1 ;  es  decir,  que  existe 
una  relacion  uno  a  uno  entre  los  precios  del  oro  y  el  IPC  (el  oro  tiene  una  cobertura 
perfecta).  (',Cual  es  el  valor p  del  estadistico  de  prueba  estimado? 

d)  Repita  el  paso  c)  para  la  regresion  del  indice  de  la  Bolsa  de  Valores  de  Nueva  York 
(NYSE).  (',La  inversion  en  el  mercado  de  valores  representa  una  cobertura  perfecta 
contra  la  inflacion?  <-,Cual  es  la  hipotesis  nula  que  esta  probando?  /.Cual  es  su  valor  pi 

e)  Entre  el  oro  y  el  mercado  de  valores,  ^que  inversion  elegiria?  /,En  que  basa  su  deci¬ 
sion? 

5.14.  La  tabla  5.6  presenta  datos  sobre  el  producto  nacional  bruto  y  cuatro  definiciones  de  la 
oferta  monetaria  de  Estados  Unidos  durante  el  periodo  1970-1983.  Al  hacer  regresiones 
del  PNB  respecto  de  las  diversas  definiciones  de  dinero,  se  obtienen  los  resultados  de  la 
tabla  5.7: 

Los  monetaristas  o  partidarios  de  la  teoria  cuantitativa  sostienen  que  el  ingreso  nominal 
(el  PNB  nominal)  se  determina  en  gran  medida  por  cambios  en  la  cantidad  o  en  la  reserva 
de  dinero,  aunque  no  hay  consenso  sobre  la  definicion  “correcta”  de  dinero.  Con  los  resul¬ 
tados  de  la  tabla  anterior,  considere  las  siguientes  preguntas: 

a)  (',Quc  definicion  de  oferta  monetaria  parece  estrechamente  relacionada  con  el  PNB 
nominal? 

b)  Como  los  terminos  r2  son  uniformemente  elevados,  ^significa  esto  que  no  importa  la 
eleccion  de  la  definicion  de  dinero? 

c)  Si  el  Banco  de  la  Reserva  Federal  desea  controlar  la  oferta  monetaria,  (',cual  de  estas 
medidas  de  dinero  es  una  mejor  meta  para  ese  proposito?  ^Puede  deducir  su  respuesta 
de  los  resultados  de  la  regresion? 

5.15.  Suponga  que  la  ecuacion  de  una  curva  de  indiferencia  entre  dos  bienes  esta  dada  por 

Xt  Yi=  fix  +  p2Xj 

(',C6mo  estimaria  los  parametros  de  este  modelo?  Aplique  el  modelo  anterior  a  los  datos  de 
la  tabla  5.8  y  comente  sus  resultados. 
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TABLA  5.6 

PNB  y  cuatro  medidas 
de  la  oferta  monetaria 

PNB 

miles  de  millones 

Medida  de  oferta  monetaria, 
miles  de  millones  de  dolares 

Fuente:  Economic  Report  of  the 

Ano 

de  dolares 

Mi 

m2 

Mb 

L 

President,  1985,  datos  del  PNB 
de  la  tabla  B-l,  p.  232;  datos  de 
la  oferta  monetaria  de  la  tabla 

1970 

992.70 

216.6 

628.2 

677.5 

816.3 

1971 

1  077.6 

230.8 

712.8 

776.2 

903.1 

B-61,  p.303. 

1972 

1  185.9 

252.0 

805.2 

886.0 

1  023.0 

1973 

1  326.4 

265.9 

861.0 

985.0 

1  141.7 

1974 

1  434.2 

277.6 

908.5 

1  070.5 

1  249.3 

1975 

1  549.2 

291.2 

1  023.3 

1  174.2 

1  367.9 

1976 

1  718.0 

310.4 

1  163.6 

1  311.9 

1  516.6 

1977 

1  918.3 

335.4 

1  286.7 

1  472.9 

1  704.7 

1978 

2  163.9 

363.1 

1  389.1 

1  647.1 

1  910.6 

1979 

2  417.8 

389.1 

1  498.5 

1  804.8 

2  117.1 

1980 

2  631.7 

414.9 

1  632.6 

1  990.0 

2  326.2 

1981 

2  957.8 

441.9 

1  796.6 

2  238.2 

2  599.8 

1982 

3  069.3 

480.5 

1  965.4 

2  462.5 

2  870.8 

1983 

3  304.8 

525.4 

2  196.3 

2  710.4 

3  183.1 

Definiciones: 

Mi  =  circulante  +  depositos  a  la  vista  +  cheques  de  viajero  y  otros  depositos  a  corto  plazo  (ODC). 

M2  =  Mi  +  transacciones  de  recompra  (RC)  entre  bancos  y  eurodolares  a  corto  plazo  +  saldos  FMMM  (fondos  mutualistas  del  mer- 
cado  monetario)  +  CAMM  (cuentas  de  ahorro  del  mercado  monetario)  +  ahorros  y  pequenos  depositos. 

M3  =  M2  +  depositos  a  largo  plazo  +  transacciones  de  recompra  a  plazo  (RC  a  termino)  +  FMMM  institucional. 

L  =  M3  +  otros  activos  liquidos. 


TAB  LA  5.7 

Regresiones  PNB-oferta 
monetaria,  1970-1983 


PNB  t  = 

-787.4723  + 

8.0863  Mu 

r2  =  0.991 2 

(77.9664) 

(0.2197) 

PNB  f  = 

-44.0626  + 

1.5875  M2t 

r2  =  0.9905 

(61.0134) 

(0.0448) 

PNB  t  = 

159.1366  + 

1.2034  M3t 

r2  =  0.9943 

(42.9882) 

(0.0262) 

PNB  t  = 

164.2071  + 

1.0290  Lt 

r2  =  0.9938 

(44.7658) 

(0.0234) 

Nota:  Las  cifras  entre  parentesis  son  los  errores  estandar  estimados. 


TAB  LA  5.8 


Consumo  del  bien  X:  1  2  3  4  5 

Consumo  del  bien  Y:  4  3.5  2.8  1.9  0.8 


5.16.  Desde  1986,  The  Economist  publica  el  Indice  Big  Mac  como  medida  burda  y  divertida 
para  saber  si  las  monedas  internacionales  se  situan  en  su  tipo  de  cambio  “correcto”,  segun 
la  teoria  de  la  paridad  del  poder  adquisitivo  (PPA).  La  PPA  sostiene  que  con  una  unidad 
de  moneda  debe  ser  posible  comprar  la  misma  canasta  de  bienes  en  todos  los  paises.  Los 
partidarios  de  la  PPA  argumentan  que,  a  la  larga,  las  monedas  tienden  a  moverse  hacia  su 
PPA.  The  Economist  utiliza  la  hamburguesa  Big  Mac  de  McDonald’s  como  canasta  repre- 
sentativa,  y  presenta  la  informacion  en  la  tabla  5.9. 

Considere  el  siguiente  modelo  de  regresion: 

Yi=  ft  i  +  foXt  +  Ui 

donde  Y  —  tipo  de  cambio  del  dia  y  X  —  PPA  implicita  del  dolar. 
a)  Si  se  mantiene  la  PPA,  ;  que  valores  de  /Si  y  /L  esperaria  a  priori ? 
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TAB  LA  5.9 

El  estandar  de  la 
hamburguesa 

Precios  de  la  hamburg 

uesa 

Tipo  de 
cambio 

Sub  (-)/ 
sobre  (+) 
valuation  de 

Fuente:  McDonald’s  y 

Big  Mac 

PPA* 

del  dia 

la  moneda 

The  Economist,  1  de 

En 

implicita 

del  dolar, 

local  frente 

febrero  de  2007. 

En  moneda  local 

dolares 

del  dolar 

31  de  enero 

al  dolar,  % 

Arabia  Saudita 

Riyal  9.00 

2.40 

2.80 

3.75 

-25 

Argentina 

Peso  8.25 

2.65 

2.56 

3.11 

-18 

Australia 

A$3.45 

2.67 

1.07 

1.29 

-17 

Brasil 

Real  6.4 

3.01 

1.99 

2.13 

-6 

Canada 

C$3.63 

3.08 

1.13 

1.18 

-4 

Chile 

Peso  1  670 

3.07 

519 

544 

-5 

China 

Yuan  1 1 .0 

1.41 

3.42 

7.77 

-56 

Colombia 

Peso  6  900 

3.06 

2  143 

2  254 

-5 

Corea  del  Sur 

Won  2  900 

3.08 

901 

942 

-4 

Costa  Rica 

Colon  1  1  30 

2.18 

351 

519 

-32 

Dinamarca 

Corona  danesa  27.75 

4.84 

8.62 

5.74 

+50 

Egipto 

Libra  9.09 

1.60 

2.82 

5.70 

-50 

Emiratos  Arabes  Unidos 

Dirham  10.0 

2.72 

3.11 

3.67 

-15 

Eslovaquia 

Corona  57.98 

2.14 

18.0 

27.2 

-34 

Estados  Unidos 

$3.22 

3.22 

Estonia 

Corona  30 

2.49 

9.32 

12.0 

-23 

Eurozona5 

€2.94 

3.82 

1.10** 

1.30** 

+19 

Filipinas 

Peso  85.0 

1.74 

26.4 

48.9 

-46 

Gran  Bretana 

£1.99 

3.90 

1 .62$ 

1.96$ 

+21 

Hong  Kong 

HK$1 2.0 

1.54 

3.73 

7.81 

-52 

Hungria 

Florin  590 

3.00 

183 

197 

-7 

Indonesia 

Rupia  1 5  900 

1.75 

4  938 

9  100 

-46 

Islandia 

Corona  islandica  509 

7.44 

158 

68.4 

+131 

Japon 

¥280 

2.31 

87.0 

121 

-28 

Letonia 

Lats  1 .35 

2.52 

0.42 

0.54 

-22 

Lituania 

Litas  6.50 

2.45 

2.02 

2.66 

-24 

Malasia 

Ringgit  5.50 

1.57 

1.71 

3.50 

-51 

Mexico 

Peso  29.0 

2.66 

9.01 

10.9 

-17 

Noruega 

Corona  noruega  41 .5 

6.63 

12.9 

6.26 

+106 

Nueva  Zelanda 

NZ$4.60 

3.16 

1.43 

1.45 

-2 

Pakistan 

Rupia  140 

2.31 

43.5 

60.7 

-28 

Paraguay 

Guarani  1 0  000 

1.90 

3  106 

5  250 

-41 

Peru 

Nuevo  Sol  9.50 

2.97 

2.95 

3.20 

-8 

Polonia 

Zloty  6.90 

2.29 

2.14 

3.01 

-29 

Republica  Checa 

Corona  52.1 

2.41 

16.2 

21.6 

-25 

Rusia 

Rubio  49.0 

1.85 

15.2 

26.5 

-43 

Singapur 

S$3.60 

2.34 

1.12 

1.54 

-27 

Sri  Lanka 

Rupia  1 90 

1.75 

59.0 

109 

-46 

Sudafrica 

Rand  15.5 

2.14 

4.81 

7.25 

-34 

Suecia 

Corona  sueca  32.0 

4.59 

9.94 

6.97 

-43 

Suiza 

Franco  suizo  6.30 

5.05 

1.96 

1.25 

+57 

Tailandia 

Baht  62.0 

1.78 

19.3 

34.7 

-45 

Taiwan 

Nuevo  dolar  taiwanes  75.0 

2.28 

23.3 

32.9 

-29 

Turquia 

Lira  4.55 

3.22 

1.41 

1.41 

nil 

Ucrania 

Grivnia  9.00 

1.71 

2.80 

5.27 

-47 

Uruguay 

Peso  55.0 

2.17 

17.1 

25.3 

-33 

Venezuela 

Bolivar  6  800 

1.58 

2  112 

4  307 

-51 

*  Paridad  del  poder  adquisitivo:  precio  local  entre  el  precio  en  Estados  Unidos. 
**  Dolares  por  euro. 

t  Promedio  de  Nueva  York,  Chicago,  San  Francisco  y  Atlanta. 

Dolares  por  libra. 

§  Promedio  ponderado  de  precios  en  la  eurozona. 
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b)  ^Los  resultados  de  la  regresion  apoyan  sus  expectativas?  <,Quc  prueba  formal  aplica 
para  demostrar  su  hipotesis? 

c)  iThe  Economist  debe  continuar  publicando  el  Indice  Big  Mac?  i Por  que? 

5.17.  Consulte  los  datos  del  examen  SAT  del  ejercicio  2.16.  Suponga  que  desea  predecir  las 
calificaciones  de  los  hombres  en  matematicas  (7)  con  base  en  las  calificaciones  obteni- 
das  por  las  mujeres  en  esa  misma  materia  ( X )  con  la  siguiente  regresion: 

Yt  —  Pi  +  fii-Xt  +  Mr 

a)  Estime  el  modelo  anterior. 

b)  De  los  residuos  estimados,  verifique  si  se  mantiene  el  supuesto  de  normalidad. 

c)  Ahora  pruebe  la  hipotesis  de  que  fii  =  1 ,  es  decir,  que  existe  una  correspondencia  uno  a 
uno  entre  las  calificaciones  de  matematicas  obtenidas  por  los  hombres  y  las  mujeres. 

d )  Prepare  la  tabla  AN OVA  para  este  problema. 

5.18.  Repita  el  ejercicio  del  problema  anterior  pero  ahora  que  Y y  X representen  las  calificacio¬ 
nes  obtenidas  por  hombres  y  mujeres  en  lectura  critica,  respectivamente. 

5.19.  La  tabla  5.10  presenta  los  datos  anuales  correspondientes  al  indice  de  precios  al  consu- 
midor  (IPC)  y  al  indice  de  precios  al  mayoreo  (IPM),  tambien  conocido  como  indice  de 
precios  al  productor  (IPP),  de  la  economia  estadounidense  durante  el  periodo  1980-2006. 


TABLA  5.10 

IPP  (total  de 

IPC  e  IPP,  Estados 

IPC  total 

bienes  terminados) 

Unidos,  1980-2006 

1980 

82.4 

88.0 

Fuente:  Economic  Report  of  the 

1981 

90.9 

96.1 

President,  2007,  tablas  B-62  y 

B-65. 

1982 

96.5 

100.0 

1983 

99.6 

101.6 

1984 

103.9 

103.7 

1985 

107.6 

104.7 

1986 

109.6 

103.2 

1987 

113.6 

105.4 

1988 

118.3 

108.0 

1989 

124.0 

113.6 

1990 

130.7 

119.2 

1991 

136.2 

121.7 

1992 

140.3 

123.2 

1993 

144.5 

124.7 

1994 

148.2 

125.5 

1995 

152.4 

127.9 

1996 

156.9 

131.3 

1997 

160.5 

131.8 

1998 

163.0 

130.7 

1999 

166.6 

133.0 

2000 

172.2 

138.0 

2001 

177.1 

140.7 

2002 

179.9 

138.9 

2003 

184.0 

143.3 

2004 

188.9 

148.5 

2005 

195.3 

155.7 

2006 

201.6 

160.3 
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TABLA  5.1 1 

Tabaquismo  y  cancer 
pulmonar 

Fuente:  http://lib.stat.cmu.edu/ 

DASL/Datafiles/SmokingandCan- 

cer.html. 


a)  Grafique  el  IPC  en  el  eje  vertical  y  el  1PM  en  el  horizontal.  A  priori,  (',quc  tipo  de  rela- 
cion  espera  entre  los  dos  indices?  (',Por  que? 

b )  Suponga  que  desea  predecir  un  indice  con  base  en  el  otro.  /.C'ual  utilizaria  como  regre- 
sada  y  cual  como  regresora?  (',Por  que? 

c)  Efectue  la  regresion  que  eligio  en  el  inciso  b).  Muestre  los  resultados  usuales.  Pruebe 
la  hipotesis  de  que  existe  una  relacion  uno  a  uno  entre  ambos  indices. 

d  )  De  los  residuos  obtenidos  de  la  regresion  de  c),  (',sc  puede  abrigar  la  hipotesis  de  que 
el  verdadero  termino  de  error  esta  normalmente  distribuido?  Muestre  las  pruebas 
que  utilizo. 

5.20  La  tabla  5.11  presenta  datos  sobre  el  indice  de  mortalidad  por  cancer  pulmonar  (100  = 

promedio)  y  el  indice  de  tabaquismo  (100  =  promedio)  correspondientes  a  25  grupos 

ocupacionales. 

a)  Trace  la  grafica  del  indice  de  mortalidad  por  cancer  sobre  el  indice  de  tabaquismo. 
(',Quc  pauta  general  observa? 

b )  Sea  Y  —  indice  de  mortalidad  por  cancer  y  X  —  indice  de  tabaquismo;  estime  un  mo- 
delo  de  regresion  lineal  y  obtenga  las  estadisticas  de  regresion  acostumbradas. 

c)  Pruebe  la  hipotesis  que  el  tabaquismo  no  tiene  influencia  sobre  el  cancer  pulmonar  con 
a  =  5%. 

d)  (',Cualcs  son  las  ocupaciones  de  mayor  riesgo  en  funcion  de  la  mortalidad  por  cancer 
pulmonar?  /.Puede  ofrecer  algunas  razones  de  por  que  ocurre  asi? 

e )  Existe  algun  modo  de  incorporar  la  categoria  de  ocupacion  explicitamente  en  el  ana- 
lisis  de  regresion? 


Ocupacion 

Tabaquismo 

Cancer 

Agricultores,  silvicultores,  Pescadores 

77 

84 

Mineros  y  canteros 

137 

116 

Productores  de  gas,  coque  y  sustancias  qufmicas 

117 

123 

Productores  de  vidrio  y  ceramica 

94 

128 

Trabajadores  de  hornos,  forjas  y  fundiciones 

116 

155 

Trabajadores  de  la  industria  electrica  y  electronica 

102 

101 

Ingenierfa  y  oficios  relacionados 

111 

118 

Trabajadores  de  la  industria  maderera 

93 

113 

Trabajadores  de  la  industria  del  cuero 

88 

104 

Trabajadores  textiles 

102 

88 

Trabajadores  de  la  industria  del  vestido 

91 

104 

Trabajadores  de  la  industria  de  alimentos,  bebidas  y  tabaco 

104 

129 

Trabajadores  de  la  industria  de  papel  e  impresos 

107 

86 

Fabricantes  de  otros  productos 

112 

96 

Trabajadores  de  la  industria  de  construccion 

113 

144 

Pintores  y  decoradores 

110 

139 

Conductores  de  vehfculos  de  motor,  gruas,  etcetera 

125 

113 

jornaleros  no  incluidos  en  otras  clasificaciones 

113 

146 

Trabajadores  de  la  industria  de  transporte  y  comunicaciones 

115 

128 

Almacenistas,  encargados  de  tiendas,  etcetera 

105 

115 

Trabajadores  administrativos 

87 

79 

Trabajadores  de  ventas 

91 

85 

Trabajadores  de  servicios,  deportes  y  recreacion 

100 

120 

Administradores  y  gerentes 

76 

60 

Artistas  y  trabajadores  profesionales  y  tecnicos 

66 

51 
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Apendice  5A 


5A.1  Distribuciones  de  probabilidad  relacionadas 
con  la  distribucion  normal 


Las  distribuciones  t,  ji  cuadrada  (x2)  y  F,  cuyas  caracteristicas  primordiales  se  analizan  en  el  apendice  A, 
estan  estrechamente  relacionadas  con  la  distribucion  normal.  En  vista  de  que  se  hara  un  uso  extensivo 
de  estas  distribuciones  de  probabilidad  en  los  siguientes  capitulos,  se  resumiran  sus  relaciones  con  la  dis¬ 
tribucion  normal  en  el  siguiente  teorema;  las  pruebas,  que  rebasan  el  objetivo  de  este  libro,  se  pueden 
encontrar  en  la  bibliografia.1 

Teorema  5.1.  Si  Z\,  Z2  , .  .  . ,  Z„  son  variables  aleatorias  distribuidas  normalmente  y  de  manera  inde- 
pendiente  de  modo  que  Z,  ~  N(  /x, ,  a 2 ),  entonces  la  suma  Z  =  s£jki  Z„  donde  ki  son  constantes  no  todas 
nulas,  esta  tambien  normalmente  distribuida,  con  una  media  y  una  varianza  £jL2tr2;  es  decir, 

Z  ~  kifii,  tfcrf).  Nota:  //  representa  el  valor  medio. 

En  resumen,  las  combinaciones  lineales  de  las  variables  normales  estan  ellas  mismas  distribuidas 
normalmente.  Por  ejemplo,  si  Z\  y  Z2  estan  distribuidas  de  manera  normal  e  independiente  conforme 
Z,  ~  1V(10, 2)  y  Z2  ~  N( 8,  8.5),  entonces  la  combinacion  lineal  Z  =  0.8Z]  +  O.2Z2  tambien  esta  normalmente 
distribuida  con  una  media  =  0.8(10)  +  0.2(8)  =  9.6  y  una  varianza  =  0.64(2)  +  0.04(1.5)  =  1.34;  es  decir, 
Z  ~  (9.6,  1.34). 

Teorema  5.2.  Si  Z\,  Z2,  .  .  .  ,  Z„  estan  normalmente  distribuidas  pero  no  son  independientes,  la  suma 
Z  =  £  ki  Zi,  donde  las  kt  son  constantes  y  no  todas  igual  a  cero,  tambien  esta  normalmente  distribuida, 
con  una  media  L, /x,  y  una  varianza  I’^kfa^  +  l'^kikj  cov(Z,,  Zj),  i  ^  /]. 

Por  tanto,  si  Z,  ~  N( 6,  2)  y  Z2  ~  Nil,  3)  y  co v{Z\  Z2)  =  0.8,  entonces  la  combinacion  lineal  0.6Z!  +  0.4Z2 
tambien  esta  normalmente  distribuida  con  media  =  0.6(6)  +  0.4(7)  =  6.4  y  varianza  =  [0.36(2)  +  0.16(3) 
+  2(0.6)(0.4)(0.8)]  =  1.584. 

Teorema  5.3.  Si  Z\,  Z2, .  .  . ,  Z„  son  variables  aleatorias  distribuidas  de  manera  normal  e  independiente 
de  manera  que  cada  Zi  ~  N( 0,  1),  es  decir,  es  una  variable  normal  estandarizada,  entonces  Zf  = 
Z2  +  Z  2  +  •  ••  +  Z^  sigue  la  distribucion  ji  cuadrada  con  n  gl.  De  manera  simbolica,  Z2  ~  /2>  donde 
n  representa  los  grados  de  libertad,  gl. 

En  resumen,  “la  suma  de  los  cuadrados  de  las  variables  normales  estandarizadas  independientes  tiene 
una  distribucion  ji  cuadrada,  con  grados  de  libertad  iguales  al  numero  de  terminos  de  la  suma”.2 

Teorema  5.4.  Si  Z\,  Z2,  .  .  .  ,  Z„  son  variables  aleatorias  distribuidas  independientemente  y  cada  una 
sigue  una  distribucion  ji  cuadrada  con  k,  gl,  entonces  la  suma  Z,-  =  Z\  +  Z2  +  ■  •  ■  +  Z„  tambien  sigue 
una  distribucion  ji  cuadrada,  con  k=Y^  ki  gl- 

Por  tanto,  si  Z\  y  Z2  son  variables  /2  independientes  con  gl  de  k\  y  L2,  respectivamente,  entonces 
Z  =  Zi  +  Z2  tambien  es  una  variable  x2  con  ( k\  +  ki)  grados  de  libertad.  Lo  anterior  se  conoce  como  pro- 
piedad  reproductiva  de  la  distribucion  /2- 


1  Hay  pruebas  de  los  distintos  teoremas  en  Alexander  M.  Mood,  Franklin  A.  Graybill  y  Duane  C.  Bose,  Intro¬ 
duction  to  the  Theory  of  Statistics,  3a.  ed.,  McGraw-Hill,  Nueva  York,  1974,  pp.  239-249. 

2  Ibid.,  p.  243. 
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Teorema  5.5.  Si  Z\  es  una  variable  normal  estandarizada  \Z\  ~  N( 0,  1)]  y  otra  variable  Z2  sigue  la 
distribution  ji  cuadrada  con  k  gl  y  es  independiente  de  Z\,  entonces  la  variable  definida  como 

Z\  Z\y/k  Variable  normal  estandarizada  ^ 

yfZll^/k  V Z2  ^/Variable  independiente  ji  cuadrada/gl 

sigue  la  distribucion  1  de  Student,  con  k  gl.  Nota:  Esta  distribucion  se  analiza  en  el  apendice  A  y  se  ilustra 
en  el  capitulo  5. 

A  proposito,  observe  que,  conforme  k,  los  gl,  se  incrementa  de  manera  indefinida  (es  decir,  conforme 
k  — >  oo),  la  distribucion  t  de  Student  se  aproxima  a  la  distribucion  normal  estandarizada.3  Por  convencion, 
la  notacion  tk  significa  la  distribucion  t  de  Student  o  la  variable  con  k  gl. 

Teorema  5.6.  Si  Z\  y  Z2  son  variables  ji  cuadrada  independientemente  distribuidas,  con  k\  y  k2  gl, 
respectivamente,  entonces  la  variable 


Zi/h 

Z2/k2 


FhM 


tiene  la  distribucion  F  con  k\  y  k2  grados  de  libertad,  donde  k\  se  conocen  como  los  grados  de  libertad 
del  numerador  y  k2  como  los  grados  de  libertad  del  denominador. 


Dc  nuevo,  por  convencion,  la  notacion  Fkhkl  significa  que  es  una  variable  F  con  k\  y  k2  grados  de  liber¬ 
tad,  y  los  gl  del  numerador  se  colocan  primero. 

En  otras  palabras,  el  teorema  5.6  enuncia  que  la  variable  F  es  solo  la  razon  de  dos  variables  ji  cuadrada 
distribuidas  independientemente,  divididas  entre  sus  respectivos  grados  de  libertad. 


Teorema  5.7.  El  cuadrado  de  la  variable  t  (de  Student),  con  k  gl,  tiene  una  distribucion  F,  con  k\  =  1 
gl  en  el  numerador  y  k2  =  k  gl  en  el  denominador.4  Es  decir, 

F\,k  =  tl 

Observe  que  para  que  sea  valida  esta  igualdad,  los  gl  del  numerador  de  la  variable  F  deben  ser  1 .  Por 
tanto,  F\  4  =  o  F\j3  =  ff3>  Y  asi  sucesivamente. 

Como  se  menciono,  veremos  la  utilidad  practica  del  teorema  anterior  conforme  avancemos. 


Teorema  5.8.  Para  un  valor  grande  de  gl  del  denominador,  la  multiplicacion  de  los  gl  del  numerador 
por  el  valor  F  es  mas  o  menos  igual  al  valor  de  ji  cuadrada  con  los  gl  del  numerador.  Asl, 

m  Fm  n  =  Xm  conforme  n  — >  oo 

Teorema  5.9.  Para  un  numero  lo  bastante  grande  de  gl,  la  distribucion  ji  cuadrada  se  aproxima  me- 
diante  la  distribucion  normal  estandar  de  la  siguiente  forma: 

Z  =  y/ly}  -  \Jlk  —  1  -  N( 0,  1) 


donde  k  denota  los  gl. 


3  Para  ver  una  prueba,  consulte  Henri  Theil,  Introduction  to  Econometrics,  Prentice  Hall,  Englewood  Cliffs, 
Nueva  Jersey,  1978,  pp.  237-245. 

4  Para  ver  una  prueba,  consulte  las  ecuaciones  (5.3.2)  y  (5.9.1 ). 
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5A.2  Derivacion  de  la  ecuacion  (5.3.2) 


Sea 

z  =  02 -02  =  (ft  ~ 

ee(j62)  ff 


(1) 


y 

O'2 

Z2  =  («-2)—  (2) 

cr/ 

Siempre  que  se  conozca  a,  Z\  sigue  una  distribucion  normal  estandar;  es  decir,  Z\  ~  A/(0,  1).  (r,Por  que?) 
Z2  sigue  la  distribucion  x2  con  (n  —  2)  gl.5  Ademas,  puede  demostrarse  que  Z2  esta  independientemente 
distribuida  de  Z\.6  Por  consiguiente,  en  virtud  del  teorema  5.5,  la  variable 


ZiV«  —  2 


(3) 


sigue  la  distribucion  t  con  n  —  2  gl.  De  la  sustitucion  de  (1)  y  (2)  en  (3),  se  obtiene  la  ecuacion  (5.3.2). 


5A.3  Derivacion  de  la  ecuacion  (5.9.1) 


La  ecuacion  (1)  muestra  que  Z\  ~  N( 0,  1).  Por  consiguiente,  por  el  teorema  5.3,  la  cantidad  precedente 

?2  _  (Pi  -  02)2  T.4 

Zl  “  rr2 


sigue  la  distribucion  /2  con  1  gl.  Como  se  mostro  en  la  seccion  5A.1, 


Z2  =  («  —  2)—  = 


tambien  sigue  la  distribucion  /2  con  n  —  2  gl.  Ademas,  como  se  vio  en  la  seccion  4.3,  Z2  esta  distribuida 
independientemente  de  Zi.  Entonces,  al  aplicar  el  teorema  5.6,  se  tiene  que 

Z2/l  (fo  ~02)2(j2xi) 

Z2/(»-2 )  J]«2/(«-  2) 

sigue  la  distribucion  F  con  1  y  n  —  2  gl,  respectivamente.  Segun  la  hipotesis  nula  H0: 02  =  0,  la  razon  F 
anterior  se  reduce  a  la  ecuacion  (5.9.1). 


5A.4  Derivacion  de  las  ecuaciones  (5.10.2)  y  (5.10.6) 

Varianza  de  la  prediccion  media 

Dado  Xi  =  Xq,  la  verdadera  prediccion  media  E(Yq  |  Xo)  esta  dada  por 


E(Yo\Xo)  =  01+02Xo 


(1) 


5  Para  ver  una  prueba,  consulte  Robert  V.  Hogg  y  Allen  T.  Craig,  Introduction  to  Mathematical  Statistics,  2a. 
ed.,  Macmillan,  Nueva  York,  1965,  p.  144. 

6  Para  una  demostracion,  vease  J.  Johnston,  Econometric  Methods,  McGraw-Hill,  3a.  ed.,  Nueva  York,  1 984, 
pp.  181-182.  (Se  requieren  conocimientos  de  algebra  matricial  para  entender  la  prueba.) 
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Estimamos  (1)  a  partir  de 


%  =  Pi  +  P2X o 


(2) 


A1  obtener  el  valor  esperado  de  (2),  dado  X0,  obtenemos 

E(Y0)  =  ECPi)  +  E{P2)X0 

=  Pi  +  P2X0 

porque  Pi  y  fh  son  estimadores  insesgados.  Por  consiguiente, 

E(Y0)  =  E(Y0\X0)  =  pl+p2X0  (3) 


Es  decir,  Fo  es  un  predictor  insesgado  de  E(Yo  \  Xq). 

Ahora,  con  la  propiedad  de  que  var  (a  +  b)  =  var (a)  +  var  (b)  +  2  cov(a,  b),  obtenemos 

var(Fo)  =  var(/?i)  +  var(^2)^o  +  2  cov(PiP2)X0  (4) 


Con  las  formulas  para  varianzas  y  covarianza  de  Pi  y  fh  dadas  en  (3.3.1),  (3.3.3)  y  (3.3.9),  y  al  reordenar 
terminos,  obtenemos 


var  ( F0)  =  a 2 


1 

-  + 
n 


(Xq  —  X)2 " 

Y.xi  . 


=  (5.10.2) 


Varianza  de  la  prediccion  individual 

Deseamos  predecir  una  F  individual  correspondiente  a  X  =  X0,  es  decir,  queremos  obtener: 


Yo  —  Pi  +  P2Xq  +  Mo  (5) 

Predecimos  de  la  siguiente  forma: 

Yo  =  Pi  +  P2X0  (6) 


El  error  de  prediccion,  Y0  —  F0,  es 


Fo  —  Fo  =  Pi  +  p2Xo  +  uo  —  (Pi  +  P2Xq) 

=  (Pi  —  Pi)  +  (P2  —  P2)Xo  +  mq  (7) 


Por  consiguiente, 


E(Y0  -  Fo)  =  E(Pi  -Pi)  +  E(p2  -  p2)X o  -  E(u0 ) 
=  0 


porque  Pi,  p2  son  insesgados,  Xq  es  un  numero  fijo  y  E(u 0)  es  cero  por  suposicion. 

Al  elevar  (7)  al  cuadrado  en  ambos  lados  y  tomar  valores  esperados,  obtenemos  var(F0  —  F0)  = 
var(/b)  +  Xq  var (p2)  +  2Xo  cov(Pi,  p2)  +  var(Mo).  Con  las  formulas  de  varianza  y  covarianza  para  Pi  y 
p2  dadas  antes,  y  al  observar  que  var  (m0  =  a2),  obtenemos 


var(F0  -  F0)  =  a 2 


1 

1  +  -  + 
n 


(Xo-!)2l 


=  (5.10.6) 
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Extensiones  del 
modelo  de  regresion 
lineal  con  dos  variables 


Algunos  aspectos  del  analisis  de  regresion  lineal  se  insertan  bien  en  el  marco  del  modelo  de 
regresion  lineal  con  dos  variables  que  hemos  analizado  hasta  ahora.  Primero  consideraremos 
la  regresion  a  traves  del  origen,  es  decir,  una  situacion  en  la  cual  el  termino  del  intercepto, 
Pi,  esta  ausente  del  modelo.  Luego  veremos  el  tema  de  las  unidades  de  medicion,  o  la  forma 
como  se  midieron  Xy  Y,  y  como  un  cambio  en  las  unidades  de  medicion  afecta  los  resultados  de 
la  regresion.  Por  ultimo,  abordaremos  el  tema  de  la  forma  funcional  del  modelo  de  regresion 
lineal.  Hasta  el  momenta,  consideramos  modelos  lineales  en  los  parametros  y  en  las  variables. 
Sin  embargo,  recuerde  que  la  teoria  de  regresion  de  los  capitulos  anteriores  solo  exige  linealidad 
en  los  parametros;  las  variables  pueden  o  no  entrar  linealmente  en  el  modelo.  A1  considerar  mo¬ 
delos  que  son  lineales  en  los  parametros  pero  no  necesariamente  en  las  variables,  en  este  capitulo 
mostraremos  la  forma  como  el  modelo  de  dos  variables  resuelve  algunos  problemas  practicos  de 
interes. 

Una  vez  entendidas  las  ideas  de  este  capitulo,  su  extension  a  los  modelos  de  regresion  multiple 
es  muy  sencilla,  como  comprobaremos  en  los  capitulos  7  y  8. 


6.1  Regresion  a  traves  del  origen 


Hay  ocasiones  en  las  cuales  la  funcion  de  regresion  poblacional  (FRP)  de  dos  variables  adquiere 
la  siguiente  forma: 


Yi=p1Xi+ui  (6.1.1) 

En  este  modelo,  el  termino  del  intercepto  esta  ausente  o  es  cero,  lo  cual  explica  el  nombre:  re¬ 
gresion  a  traves  del  origen. 

A  manera  de  ilustracion  consideremos  el  modelo  de  asignacion  de  precios  de  activos  de  capi¬ 
tal  (CAPM,  del  ingles  capital  asset  pricing  model)  de  la  teoria  moderna  de  portafolios,  la  cual, 
en  su  version  de  prima  por  riesgo,  se  expresa  como1 

(ER,-  —  rf)  —  Pi(ERm  —  rf)  (6.1.2) 


1  Vease  Haim  Levy  y  Marshall  Sarnat,  Portfolio  and  Investment  Selection:  Theory  and  Practice,  Prentice-Hall 
International,  Englewood  Cliffs,  Nueva  Jersey,  1984,  capitulo  14. 
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donde  ER,  =  tasa  esperada  de  rendimiento  del  titulo  i. 

ER„,  =  tasa  esperada  de  rendimiento  del  portafolios  del  mercado  como  la  representa,  por 
ejemplo,  el  indice  compuesto  de  acciones  S&P  500. 
rf  =  tasa  de  rendimiento  libre  de  riesgo,  por  ejemplo,  el  rendimiento  de  los  bonos  del 
Tesoro  estadounidense  a  90  dias. 

Pi  =  el  coeficiente  Beta,  una  medida  de  riesgo  sistematico,  es  decir,  el  riesgo  que  no  se 
ha  eliminado  con  la  diversification.  Asimismo,  es  una  medida  del  grado  en  el  cual  la 
z'-esima  tasa  de  rendimiento  del  titulo  se  mueve  con  el  mercado.  Un  p,  >  1  implica 
un  titulo  volatil  o  riesgoso,  mientras  que  Pi  <  1  es  un  titulo  seguro.  ( Nota :  No  con- 
funda  esta  Pi  con  el  coeficiente  de  la  pendiente  de  la  regresion  con  dos  variables, 

Pi) 

Si  los  mercados  de  capitales  funcionan  de  manera  eficiente,  el  CAPM  postula  que  la  prima 
esperada  por  el  riesgo  del  titulo  (=  ER,  —  rj)  es  igual  a  ese  coeficiente  p  del  titulo  multiplicado 
por  la  prima  esperada  del  riesgo  del  mercado  (=  ER,„  —  rj).  Si  el  CAPM  se  mantiene  se  da  la 
situation  de  la  figura  6.1.  La  linea  que  aparece  en  la  figura  se  conoce  como  linea  del  mercado 
de  valores  (LMV). 

Para  fines  empiricos,  (6.1.2)  suele  expresarse  asi: 

Ri  ~  rf  =  Pi(Rm  —  rf)  +  ut  (6.1.3) 

o 

Ri  -  rf  =  a,  +  Pi(Rm  -  r j )  +  m  (6.1.4) 

Este  ultimo  modelo  se  conoce  como  el  Modelo  del  Mercado.2  Si  el  CAPM  es  valido,  se  espera 
que  a,-  sea  cero.  (Vease  la  figura  6.2.) 

Observe  que  en  (6.1.4)  la  variable  dependiente,  Y,  es  (R,  —  rj),  y  la  variable  explicativa,  X,  es 
Pi,  el  coeficiente  de  volatilidad,  y  no  (Rm  —  rj).  Por  consiguiente,  para  realizar  la  regresion  (6. 1 .4), 
se  debe  estimar  primero  Pi,  el  cual  se  obtiene  por  lo  general  de  la  linea  caracteristica,  como 
describimos  en  el  ejercicio  5.5.  (Para  mayores  detalles  vease  el  ejercicio  8.28.) 

Como  muestra  este  ejemplo,  algunas  veces  la  teoria  que  sirve  de  base  requiere  que  el  termino 
del  intercepto  este  ausente  del  modelo.  La  hipotesis  del  ingreso  permanente  de  Milton  Friedman, 
que  afirma  que  el  consumo  permanente  es  proporcional  al  ingreso  permanente,  es  otro  caso  en 
el  que  el  modelo  de  intercepto  cero  puede  ser  apropiado,  como  tambien  en  la  teoria  del  analisis 


FIGURA  6.1 

Riesgo  sistematico. 


ER.-7 


2  Vease,  por  ejemplo,  Diana  R.  Harrington,  Modern  Portfolio  Theory  and  the  Capital  Asset  Pricing  Model:  A  User's 
Guide,  Prentice-Hall,  Englewood  Cliffs,  Nueva  Jersey,  1 983,  p.  71 . 
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FIGURA  6.2 

El  Modelo  del  Mercado 
de  la  teorla  de  portafolios 
(con  el  supuesto  de  que 

ott  =  0). 


de  costos,  que  postula  que  la  variable  costo  de  produccion  es  proporcional  a  la  produccion;  y 
algunas  versiones  de  la  teorla  monetarista  que  afirman  que  la  tasa  de  cambio  de  los  precios  (es 
decir,  la  tasa  de  inflacion)  es  proporcional  a  la  tasa  de  cambio  de  la  oferta  monetaria. 

((Como  se  estiman  modelos  como  (6. 1 . 1)  y  que  problemas  presentan?  Para  responder,  primero 
escribimos  la  FRM  de  (6.1.1),  a  saber: 


Yj  -  /?2 Xi  +  Uj 


(6.1.5) 


Ahora  aplicamos  el  metodo  MCO  a  (6.1.5)  y  se  obtienen  las  siguientes  formulas  para  /C  y  su 
varianza  (las  pruebas  se  presentan  en  el  apendice  6A,  seccion  6A.1): 


donde  a 2  se  estima  con 


a  HXM 

(6.1.6) 

ct2 

(6.1.7) 

E‘‘'' 

n  —  1 

(6.1.8) 

Es  interesante  comparar  estas  formulas  con  las  obtenidas  cuando  se  incluye  el  termino  del  inter- 
cepto  en  el  modelo: 


Exf 

a2 

var(yS2)  = 

-2 

Ext 

rtf 

a  — 

n  —  2 

(3.1.6) 

(3.3.1) 

(3.3.5) 
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EJEMPLO  6.1 


Deben  ser  obvias  las  diferencias  entre  estos  dos  conjuntos  de  formulas:  en  el  modelo  sin 
termino  de  intercepto  se  utilizan  sumas  de  cuadrados  simples  y  productos  cruzados,  pero  en  el 
modelo  con  intercepto,  se  utilizan  sumas  de  cuadrados  ajustadas  (de  la  media)  y  productos  cru¬ 
zados.  Segundo,  los  gl  para  calcular  d2  son  («  —  1)  en  el  primer  caso  y  (n  —  2)  en  el  segundo. 
(^Por  que?) 

Aunque  el  modelo  sin  intercepto  o  con  intercepto  cero  puede  ser  apropiado  en  algunas  oca- 
siones,  deben  observarse  algunas  caracteristicas  de  este  modelo.  Primero,  Y  u„  que  es  siempre 
cero  en  el  modelo  con  intercepto  (el  modelo  convencional),  no  necesita  serlo  cuando  ese  termino 
esta  ausente.  En  resumen,  Y  no  necesita  ser  cero  en  la  regresion  a  traves  del  origen.  Segundo, 
r2,  el  coeficiente  de  determinacion  presentado  en  el  capitulo  3,  que  siempre  es  no  negativo  en 
el  modelo  convencional,  en  ocasiones  puede  volverse  negativo  en  el  modelo  sin  intercepto.  Este 
resultado  anomalo  surge  porque  el  r2  que  presentamos  en  el  capitulo  3  supone  explicitamente 
que  el  intercepto  esta  incluido  en  el  modelo.  Por  consiguiente,  el  r2  calculado  convencional- 
mente  puede  no  ser  apropiado  en  los  modelos  de  regresion  a  traves  del  origen.3 

r2  para  el  modelo  de  regresion  a  traves  del  origen 

Como  recien  mencionamos  y  mas  adelante  analizaremos  en  mayor  detalle  en  el  apendice  6A, 
section  6A.1,  el  r2  convencional  del  capitulo  3  no  es  apropiado  en  regresiones  que  no  incluyan 
o  no  consideren  el  intercepto.  Pero  se  puede  calcular  para  tales  modelos,  lo  que  se  conoce  como 
el  r 2  simple,  el  cual  se  define  como 

,  (y \XiYi)2 

r2  simple  (6.1.9) 

Nota:  Se  trata  de  sumas  de  cuadrados  simples  (es  decir,  no  corregidas  por  la  media)  y  de  produc¬ 
tos  cruzados. 

A  pesar  de  que  este  r2  simple  satisface  la  relation  0  <  r2  <  1,  no  es  directamente  comparable 
con  el  valor  r2  convencional.  Por  esta  razon,  algunos  autores  no  presentan  el  valor  r2  en  los  mo¬ 
delos  de  regresion  con  intercepto  cero. 

Debido  a  las  caracteristicas  especiales  de  este  modelo,  se  debe  tener  mucho  cuidado  al  utili- 
zar  el  modelo  de  regresion  con  intercepto  cero.  A  menos  que  hava  una  expectativa  a  priori  muv 
solida,  es  aconsejable  apegarse  al  modelo  convencional  con  presencia  de  intercepto.  Esto  tiene 
una  doble  ventaja.  Primero,  si  se  incluye  en  el  modelo  el  termino  del  intercepto  pero  es  estadis- 
ticamente  no  significativo  (es  decir,  estadisticamente  igual  a  cero),  para  todos  los  fines  practicos 
se  tiene  una  regresion  a  traves  del  origen.4  Segundo  y  mas  importante,  si  el  modelo  si  tiene  un 
intercepto  pero  insistimos  en  ajustar  una  regresion  a  traves  del  origen,  cometeriamos  un  error  de 
especificacion.  Veremos  esto  en  detalle  en  el  capitulo  7. 


La  tabla  6.1  presenta  datos  mensuales  sobre  los  rendimientos  excedentes  Yt(% )  de  un  fndice 
de  104  acciones  del  sector  de  bienes  de  consumo  cfclico  y  los  rendimientos  excedentes  Xt(%) 
del  indice  de  todo  el  mercado  de  valores  en  el  Reino  Unido,  correspondientes  al  periodo  1980- 
1999,  para  un  total  de  240  observaciones.5  Por  rendimientos  excedentes  se  entiende  el  rendi- 
miento  superior  al  que  ofrece  un  activo  sin  riesgo  (vease  el  modelo  CAPM). 


3  Para  un  analisis  adicional,  vease  Dennis  J.  Aigner,  Basic  Econometrics,  Prentice-Hall,  Englewood  Cliffs,  Nueva 
Jersey,  1971,  pp.  85-88. 

4  Henri  Theil  senala  que  si  el  intercepto  efectivamente  esta  ausente,  el  coeficiente  de  la  pendiente  puede  esti- 
marse  con  mucha  mas  precision  que  cuando  el  termino  del  intercepto  esta  incluido.  Vease  su  Introduction  to 
Econometrics,  Prentice-Hall,  Englewood  Cliffs,  Nueva  Jersey,  1 978,  p.  76.  Vease  tambien  el  ejemplo  numerico 
a  continuacion. 

5  Estos  datos,  provenientes  originalmente  del  banco  de  datos  DataStream,  se  reproducen  de  Christiaan  Heij 
et  al.,  Econometric  Methods  with  Applications  in  Business  and  Economics,  Oxford  University  Press,  Oxford,  Reino 
Unido,  2004. 
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TAB  LA  6.1 

OBS 

Y 

X 

OBS 

Y 

X 

1980:01 

6.08022852 

7.263448404 

1984:12 

3.52786616 

3.191554763 

1980:02 

-0.924185461 

6.339895504 

1985:01 

4.554587707 

3.907838688 

1980:03 

-3.286174252 

-9.285216834 

1985:02 

5.365478677 

-1.708567484 

1980:04 

5.211976571 

0.793290771 

1985:03 

4.525231564 

0.435218492 

1980:05 

-16.16421111 

-2.902420985 

1985:04 

2.944654344 

0.958067845 

1980:06 

-1.054703649 

8.613150875 

1985:05 

-0.268599528 

1.095477375 

1980:07 

11.17237699 

3.982062848 

1985:06 

-3.661040481 

-6.816108909 

1980:08 

-11.06327551 

-1.150170907 

1985:07 

-4.540505062 

2.785054354 

1980:09 

-16.77699609 

3.486125868 

1985:08 

9.195292816 

3.900209023 

1980:10 

-7.021834032 

4.329850278 

1985:09 

-1.894817019 

-4.203004414 

1980:11 

-9.71684668 

0.936875279 

1985:10 

12.00661274 

5.60179802 

1980:12 

5.215705717 

-5.202455846 

1985:11 

1.233987382 

1.570093976 

1981:01 

-6.612000956 

-2.082757509 

1985:12 

-1.446329607 

-1.084427121 

1981:02 

4.264498443 

2.728522893 

1986:01 

6.023618851 

0.778669473 

1981:03 

4.916710821 

0.653397106 

1986:02 

10.51235756 

6.470651262 

1981:04 

22.20495946 

6.436071962 

1986:03 

13.40071024 

8.953781192 

1981:05 

-11.29868524 

-4.259197932 

1986:04 

-7.796262998 

-2.387761685 

1981:06 

-5.770507783 

0.543909707 

1986:05 

0.211540446 

-2.873838588 

1981:07 

-5.217764717 

-0.486845933 

1986:06 

6.471111064 

3.440269098 

1981:08 

16.19620175 

2.843999508 

1986:07 

-9.037475168 

-5.891053375 

1981:09 

-17.16995395 

-16.4572142 

1986:08 

-5.47838091 

6.375582004 

1981:10 

1.105334728 

4.468938171 

1986:09 

-6.756881852 

-5.734839396 

1981:11 

11.6853367 

5.885519658 

1986:10 

-2.564960223 

3.63088408 

1981:12 

-2.301451728 

-0.390698164 

1986:11 

2.456599468 

-1.31606687 

1982:01 

8.643728679 

2.499567896 

1986:12 

1.476421303 

3.521601216 

1982:02 

-11.12907503 

-4.033607075 

1987:01 

1  7.0694004 

8.673412896 

1982:03 

1.724627956 

3.042525777 

1987:02 

7.565726727 

6.914361923 

1982:04 

0.157879967 

0.734564665 

1987:03 

-3.239325817 

-0.460660854 

1982:05 

-1.875202616 

2.779732288 

1987:04 

3.662578335 

4.295976077 

1982:06 

-10.62481767 

-5.900116576 

1987:05 

7.157455113 

7.719692529 

1982:07 

-5.761135416 

3.005344385 

1987:06 

4.774901623 

3.039887622 

1982:08 

5.481432596 

3.954990619 

1987:07 

4.23770166 

2.510223804 

1982:09 

-17.02207459 

2.547127067 

1987:08 

-0.881352219 

-3.039443563 

1982:10 

7.625420708 

4.329008106 

1987:09 

11.49688416 

3.787092018 

1982:11 

-6.575721646 

0.191940594 

1987:10 

-35.56617624 

-27.86969311 

1982:12 

-2.372829861 

-0.92167555 

1987:11 

-14.59137369 

-9.956367094 

1983:01 

17.52374936 

3.394682577 

1987:12 

14.87271664 

7.975865948 

1983:02 

1.354655809 

0.758714353 

1988:01 

1.748599294 

3.936938398 

1983:03 

16.26861049 

1.862073664 

1988:02 

-0.606016446 

-0.32797064 

1983:04 

-6.074547158 

6.797751341 

1988:03 

-6.078095523 

-2.161544202 

1983:05 

-0.826650702 

-1.699253628 

1988:04 

3.976153828 

2.721787842 

1983:06 

3.807881996 

4.092592402 

1988:05 

-1.050910058 

-0.514825422 

1983:07 

0.57570091 

-2.926299262 

1988:06 

3.317856956 

3.128796482 

1983:08 

3.755563441 

1.773424306 

1988:07 

0.407100105 

0.181502075 

1983:09 

-5.365927271 

-2.800815667 

1988:08 

-11.87932524 

-7.892363786 

1983:10 

-3.750302815 

-1.505394995 

1988:09 

-8.801026046 

3.347081899 

1983:11 

4.898751703 

4.18696284 

1988:10 

6.784211277 

3.158592144 

1983:12 

4.379256151 

1.201416981 

1988:11 

-10.20578119 

-4.816470363 

1984:01 

16.56016188 

6.769320788 

1988:12 

-6.73805381 

-0.008549997 

1984:02 

1.523127464 

-1.686027417 

1989:01 

12.83903643 

13.46098219 

1984:03 

1 .0206078 

5.245806105 

1989:02 

3.302860922 

-0.764474692 

1984:04 

-3.899307684 

1.728710264 

1989:03 

-0.155918301 

2.298491097 

1984:05 

-14.32501615 

-7.279075595 

1989:04 

3.623090767 

0.762074588 

1984:06 

3.056627177 

-0.77947067 

1989:05 

-1.167680873 

-0.495796117 

1984:07 

-0.02153592 

-2.439634487 

1989:06 

-1.221603303 

1.206636013 

1984:08 

3.355102212 

8.445977813 

1989:07 

5.262902744 

4.637026116 

1984:09 

0.100006778 

1.221080129 

1989:08 

4.845013219 

2.680874116 

1984:10 

1.691250318 

2.733386772 

1989:09 

-5.069564838 

-5.303858035 

1984:11 

8.20075301 

5.12753329 

1989:10 

-13.57963526 

-7.210655599 

( continue i) 

TAB  LA  6.1 

(continuation) 


OBS 

Y 

X 

OBS 

Y 

X 

1989:11 

1.100607603 

5.350185944 

1994:12 

-4.225370964 

0.264280259 

1989:12 

4.925083189 

4.106245855 

1995:01 

-6.302392617 

-2.420388431 

1990:01 

-2.532068851 

-3.629547374 

1995:02 

1.27867637 

0.138795213 

1990:02 

-6.601872876 

-5.205804299 

1995:03 

10.90890516 

3.231656585 

1990:03 

-1.023768943 

-2.183244863 

1995:04 

2.497849434 

2.215804682 

1990:04 

-7.097917266 

-5.408563794 

1995:05 

2.891526594 

3.856813589 

1990:05 

6.376626925 

10.57599169 

1995:06 

-3.773000069 

-0.952204306 

1990:06 

1.861974711 

-0.338612099 

1995:07 

8.776288715 

4.020036363 

1990:07 

-5.591527585 

-2.21316202 

1995:08 

2.88256097 

1.423600345 

1990:08 

-15.31758975 

-8.476177427 

1995:09 

2.14691333 

-0.037912571 

1990:09 

-10.17227358 

-7.45941471 

1995:10 

-4.590104662 

-1.17655329 

1990:10 

-2.217396045 

-0.085887763 

1995:11 

-1.293255187 

3.760277356 

1990:11 

5.974205798 

5.034770534 

1995:12 

-4.244101531 

0.434626357 

1990:12 

-0.857289036 

-1.767714908 

1996:01 

6.647088904 

1.906345103 

1991:01 

-3.780184589 

0.189108456 

1996:02 

1.635900742 

0.301898961 

1991:02 

20.64721437 

10.38741504 

1996:03 

7.8581899 

-0.314132324 

1991:03 

10.94068018 

2.921913827 

1996:04 

0.789544896 

3.034331741 

1991:04 

-3.145639589 

0.971720188 

1996:05 

-0.907725397 

-1.497346299 

1991:05 

-3.142887645 

-0.4317819 

1996:06 

-0.392246948 

-0.894676854 

1991:06 

-1.960866141 

-3.342924986 

1996:07 

-1.035896351 

-0.532816274 

1991:07 

7.330964031 

5.242811509 

1996:08 

2.556816005 

3.863737088 

1991:08 

7.854387926 

2.880654691 

1996:09 

3.131830038 

2.118254897 

1991:09 

2.539177843 

-1.121472224 

1996:10 

-0.020947358 

-0.853553262 

1991:10 

-1.233244642 

-3.969577956 

1996:11 

-5.312287782 

1.770340939 

1991:11 

-11.7460404 

-5.707995062 

1996:12 

-5.196176326 

1.702551635 

1991:12 

1.078226286 

1.502567049 

1997:01 

-0.753247124 

3.465753348 

1992:01 

5.937904622 

2.599565094 

1997:02 

-2.474343938 

1.115253221 

1992:02 

4.113184542 

0.135881087 

1997:03 

2.47647802 

-2.057818461 

1992:03 

-0.655199392 

-6.146138064 

1997:04 

-1.119104196 

3.57089955 

1992:04 

15.28430278 

10.45736831 

1997:05 

3.352076269 

1.953480438 

1992:05 

3.994517585 

1.415987046 

1997:06 

-1.910172239 

2.458700404 

1992:06 

-11.94450998 

-8.261109424 

1997:07 

0.142814607 

2.992341297 

1992:07 

-2.530701327 

-3.778812167 

1997:08 

10.50199263 

-0.457968038 

1992:08 

-9.842366221 

-5.386818488 

1997:09 

12.98501943 

8.111278967 

1992:09 

18.11573724 

11.19436372 

1997:10 

-4.134761655 

-6.967124504 

1992:10 

0.200950206 

3.999870038 

1997:11 

-4.148579856 

-0.155924791 

1992:11 

1.125853097 

3.620674752 

1997:12 

-1.752478236 

3.853283433 

1992:12 

7.639180786 

2.887222251 

1998:01 

-3.349121498 

7.379466014 

1993:01 

2.919569408 

1.336746091 

1998:02 

14.07471304 

4.299097886 

1993:02 

-1.062404105 

1.240273846 

1998:03 

7.791650968 

3.410780517 

1993:03 

1.292641409 

0.407144312 

1998:04 

5.154679109 

-0.081494993 

1993:04 

0.420241  384 

-1.734930047 

1998:05 

3.293686179 

-1.613131159 

1993:05 

-2.514080553 

1.111533687 

1998:06 

-13.25461802 

-0.397288954 

1993:06 

0.419362276 

1.354127742 

1998:07 

-7.714205916 

-2.237365283 

1993:07 

4.374024535 

1.943061568 

1998:08 

-15.26340483 

-12.4631993 

1993:08 

1.733528075 

4.961979827 

1998:09 

-15.22865141 

-5.170734985 

1993:09 

-3.659808969 

-1.618729936 

1998:10 

15.96218038 

11.70544788 

1993:10 

5.85690764 

4.215408608 

1998:11 

-8.684089113 

-0.380200223 

1993:11 

-1.365550294 

1.880360165 

1998:12 

17.13842369 

4.986705187 

1993:12 

-1.346979017 

5.826352413 

1999:01 

-1.468448611 

2.493727994 

1994:01 

12.89578758 

2.973540693 

1999:02 

8.5036 

0.937105259 

1994:02 

-5.346700561 

-5.479858563 

1999:03 

10.8943073 

4.280082506 

1994:03 

-7.614726564 

-5.784547088 

1999:04 

13.03497394 

3.960824402 

1994:04 

10.22042923 

1.157083438 

1999:05 

-5.654671597 

-4.499198079 

1994:05 

-6.928422261 

-6.356199493 

1999:06 

8.321969316 

3.656745699 

1994:06 

-5.065919037 

-0.843583888 

1999:07 

0.507652273 

-2.503971473 

1994:07 

7.483498556 

5.779953224 

1999:08 

-5.022980561 

-0.121901923 

1994:08 

1.828762662 

3.298130184 

1999:09 

-2.305448839 

-5.388032432 

1994:09 

-5.69293279 

-7.110010085 

1999:10 

-1.876879466 

4.010989716 

1994:10 

-2.426962489 

2.968005597 

1999:11 

1.348824769 

6.265312975 

1994:11 

2.125100668 

-1.531245158 

1999:12 

-2.64164938 

4.045658427 
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En  primer  lugar  ajustamos  el  modelo  (6.1 .3)  a  estos  datos.  Con  EViews6  obtuvimos  los  siguientes 
resultados  de  regresion,  que  se  presentan  en  el  formato  estandar  de  EViews. 

Variable  dependiente:  Y 
Metodo:  mfnimos  cuadrados 
Muestra:  1980M01  1999M12 
Observaciones  incluidas:  240 


Coeficiente 

Error  estandar 

Estadistico  t 

Probabilidad 

X 

1.155512 

0.074396 

15.53200 

0.0000 

R  cuadrada 

R  cuadrada  ajustada1" 

Error  estandar  de  regresion 

Suma  de  cuadrados  de  residuos 

0.500309 

0.500309 

5.548786 

7  358.578 

Media  de  la  variable  dependiente 
Desviacion  estandar  de  la  variable 
dependiente 

Estadistico  de  Durbin-Watson* 

0.499826 

7.849594 

1.972853 

*Estudiaremos  este  estadistico  en  el  capitulo  12. 
t  Vease  el  capitulo  7. 


Como  muestran  estos  resultados,  el  coeficiente  de  la  pendiente  (el  coeficiente  Beta)  es  muy 
significativo,  pues  su  valor  p  es  muy  pequeno.  La  interpretacion  en  este  caso  es  que  si  la  tasa 
excedente  del  mercado  aumenta  un  punto  porcentual,  el  rendimiento  excedente  del  fndice  del 
sector  de  bienes  de  consumo  aumenta  alrededor  de  1.15  puntos  porcentuales.  El  coeficiente 
de  la  pendiente  no  es  solo  estadfsticamente  significativo,  sino  que  es  significativamente  mayor 
que  1  Qpuede  verificar  esto?).  Si  un  coeficiente  Beta  es  mayor  que  1,  se  dice  que  ese  tftulo  (en 
este  caso,  un  portafolios  de  104  acciones)  es  volatil;  se  mueve  mas  que  proporcionalmente  con 
el  fndice  general  del  mercado  de  valores.  Sin  embargo,  este  resultado  no  debe  sorprender,  por- 
que  en  este  ejemplo  se  consideran  acciones  del  sector  de  bienes  de  consumo  cfclico,  como  los 
bienes  duraderos  de  uso  domestico,  automoviles,  textiles  y  equipo  deportivo. 

Si  ajustamos  el  modelo  (6.1 .4),  obtenemos  los  siguientes  resultados: 

Variable  dependiente:  Y 
Metodo:  mfnimos  cuadrados 
Muestra:  1980M01  1999M12 
Observaciones  incluidas:  240 


Coeficiente 

Error  estandar 

Estadfstico  t 

Probabilidad 

C 

-0.447481 

0.362943 

-1.232924 

0.2188 

X 

1.171128 

0.075386 

15.53500 

0.0000 

R  cuadrada 

0.503480 

Media  de  la  variable  dependiente 

0.499826 

R  cuadrada  ajustada 

0.501394 

Desviacion  estandar  de  la  variable 
dependiente 

7.849594 

Error  estandar  de  regresion 

5.542759 

Estadistico  de  Durbin-Watson 

1.984746 

Suma  de  cuadrados  de  residuos 
Estadistico  F 

7  311.877 
241.3363 

Probabilidad  (estadfstico  F) 

0.000000 

En  estos  resultados  observamos  que  el  intercepto  no  es  estadfsticamente  diferente  de  cero, 
aunque  el  coeficiente  de  la  pendiente  (el  coeficiente  Beta)  es  muy  significativo  estadfsticamente. 
Esto  indica  que  el  modelo  de  regresion  a  traves  del  origen  se  ajusta  bien  a  los  datos.  Ademas, 
en  terminos  estadfsticos,  no  hay  diferencia  entre  los  valores  del  coeficiente  de  la  pendiente  en 
los  dos  modelos.  Observe  que  el  error  estandar  del  coeficiente  de  la  pendiente  en  el  modelo  de 
regresion  a  traves  del  origen  es  un  poco  menor  que  el  del  modelo  con  el  intercepto  presente,  lo 
cual  apoya  el  argumento  de  Theil  de  la  nota  4.  Aun  en  este  caso,  el  coeficiente  de  la  pendiente 
es  estadfsticamente  mayor  que  1,  lo  que  una  vez  mas  confirma  que  los  rendimientos  de  las  ac¬ 
ciones  del  sector  de  bienes  de  consumo  cfclico  son  volatiles. 

A  proposito,  observe  que  el  valor  de  r2  para  el  modelo  de  regresion  a  traves  del  origen  debe 
tomarse  con  ciertas  reservas,  pues  la  formula  tradicional  de  r2  no  es  aplicable  en  tales  modelos. 
Sin  embargo,  EViews  presenta  de  manera  habitual  el  valor  estandar  de  r2,  incluso  para  estos 
modelos. 
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(i continuation ) 
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6.2  Esc  alas  y  unidades  de  medicion 


Para  entender  las  ideas  de  esta  seccion,  considere  la  informacion  de  la  tabla  6.2,  referente  a  la 
inversion  domestica  privada  bruta  (IDPB)  de  Estados  Unidos  y  al  producto  interno  bruto  (PIB) 
en  miles  de  millones  y  en  millones  de  dolares  de  2000  ajustados  por  la  inflacion. 

Suponga  que  en  la  regresion  de  la  IDPB  sobre  el  PIB,  un  investigador  utiliza  informacion 
medida  en  miles  de  millones  de  dolares  y  otro  expresa  estos  datos  en  millones  de  dolares.  ^Seran 
iguales  los  resultados  de  la  regresion  en  ambos  casos?  De  no  ser  asi,  <^que  resultados  deben  usarse? 
En  resumen,  ('Jas  unidades  con  que  se  mide  la  variable  regresada  y  la(s)  variable(s)  regresora(s) 
influyen  de  algun  modo  en  los  resultados  de  la  regresion?  De  ser  asi,  ^que  curso  razonable  debe 
seguirse  en  la  seleccion  de  las  unidades  de  medicion  para  el  analisis  de  regresion?  Para  responder 
estas  preguntas,  procedamos  sistematicamente.  Sea 

Y,  =  A  +  fcXi  +  «/  (6.2.1) 

donde  Y=  IDPB  yX  =  PIB.  Defina 

Y*  =  w,  V,  (6.2.2) 

X*  =  w2Xt  (6.2.3) 

donde  w\  y  xv2  son  constantes,  denominadas  factores  de  escala;  w\  puede  ser  igual  o  diferente 
a  w2. 

De  (6.2.2)  y  (6.2.3)  es  claro  que  Y*  y  X*  son  Y,  y  X,  reescalcidas.  Por  tanto,  si  Y,  y  X,  se  miden 
en  miles  de  millones  de  dolares  y  se  desea  expresarlas  en  millones  de  dolares,  se  tendra  Y*  = 
1  000  Yt  y  X*  =  I  000  Xt;  aqui  wx  =  w2=  1  000. 

Ahora  considere  la  regresion  con  las  variables  Y*  y  X*: 

Y*  =  ji*  +  p*X*  +  u*  (6.2.4) 

donde  Y*  —  w\  Yt,  X*  =  w2X ,  y  u*  —  w\Ui.  ((.Por  que?) 


TABLA  6.2 

Inversion  nacional  pri- 

Ano 

1  DPBmm 

IDPBm 

PIBm 

vada  bruta  y  PIB,  Esta- 

1990 

886.6 

886  600.0 

7  112.5 

7  112  500.0 

dos  Unidos,  1990-2005 

1991 

829.1 

829  100.0 

7  100.5 

7  100  500.0 

(miles  de  millones  de 

1992 

878.3 

878  300.0 

7  336.6 

7  336  600.0 

dolares  [de  2000]  ajus- 

1993 

953.5 

953  500.0 

7  532.7 

7  532  700.0 

tados  por  la  inflacion, 

1994 

1  042.3 

1  042  300.0 

7  835.5 

7  835  500.0 

salvo  donde  se  indica  lo 

1995 

1  109.6 

1  109  600.0 

8  031.7 

8  031  700.0 

contrario;  datos  trimes- 

1996 

1  209.2 

1  209  200.0 

8  328.9 

8  328  900.0 

trales  con  tasas  anuales 

1997 

1  320.6 

1  320  600.0 

8  703.5 

8  703  500.0 

ajustadas  por  estaciona- 

1998 

1  455.0 

1  455  000.0 

9  066.9 

9  066  900.0 

lidad) 

1999 

1  576.3 

1  576  300.0 

9  470.3 

9  470  300.0 

2000 

1  679.0 

1  679  000.0 

9  817.0 

9  817  000.0 

Fuente:  Economic  Report  of  the 

2001 

1  629.4 

1  629  400.0 

9  890.7 

9  890  700.0 

President,  2007,  tabla  B-2,  p.  328. 

2002 

1  544.6 

1  544  600.0 

10  048.8 

10  048  800.0 

2003 

1  596.9 

1  596  900.0 

10  301.0 

10  301  000.0 

2004 

1  713.9 

1  713  900.0 

10  703.5 

10  703  500.0 

2005 

1  842.0 

1  842  000.0 

11  048.6 

1 1  048  600.0 

Nota:  IDPBmm  =  inversion  domestica  privada  bruta  (miles  de  millones  de  dolares  de  2000). 
IDPBm  =  inversiones  nacionales  privadas  brutas  (millones  de  dolares  de  2000). 
PlBitun  =  producto  interno  bruto  (miles  de  millones  de  dolares  de  2000). 

PlBm  =  producto  interno  bruto  (millones  de  dolares  de  2000). 
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Deseamos  encontrar  las  relaciones  entre  los  siguientes  pares: 

1.  foyft 
2 ■  foyfe 

3.  var(j6i)y  varC^*) 

4.  var(^2)yvar(^|) 

5.  a2  yd*2 
6-  rly  y  r2x*y 

De  la  teorla  de  mlnimos  cuadrados,  sabemos  (vease  el  capltulo  3)  que 


A  = 

Y-hx 

(6.2.5) 

h  = 

J2XiYi 

Exf 

(6.2.6) 

var(/b)  = 

E 4  2 

nJ2x2 

a2 

(6.2.7) 

var(^2)  = 

E*,2 

(6.2.8) 

a2  — 

E«2 

n  —  2 

(6.2.9) 

Del  mismo  modo,  al  aplicar  el  metodo  MCO  a  (6.2.4),  obtenemos 


Y*  -  P*X* 

(6.2.10) 

/S2*  = 

Ex?y* 

E**2 

(6.2.11) 

var  (ft*)  = 

E^f2  *2 

nj:.*2 

(6.2.12) 

var  (&*)  = 

a*2 

Zx? 

(6.2.13) 

a*2 

E  uf 

(6.2.14) 

in-  2) 

Con  estos  resultados  es  facil  establecer  relaciones  entre  estos  dos  conjuntos  de  parametros  esti- 
mados.  Todo  lo  que  se  debe  hacer  es  recordar  las  siguientes  relaciones:  Y*  —  w i  Y ]  (o  y*  —  wiv,); 
X*  —  wiXi  (o  x*  —  W2Xi );  u*  —w\Ui\  Y*  —  w\  Y;  y  X*  —  w2X  Con  estas  definiciones,  el  lec¬ 
tor  puede  verificar  facilmente  que 
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var0§2*)  = 

(— )  var(y62) 

V  w2  / 

(6.2.19) 

r2  = 

xy 

r\  „ 

x*y* 

(6.2.20) 

De  los  resultados  anteriores  debe  quedar  claro  que,  con  los  resultados  de  regresion  basados 
en  una  escala  de  medicion,  se  pueden  obtener  los  resultados  basados  en  otra,  una  vez  que  se  co- 
nozcan  los  factores  de  escala,  w.  En  la  practica,  sin  embargo,  se  deben  escoger  las  unidades  de 
medicion  en  forma  razonable;  no  tiene  objeto  manejar  todos  esos  ceros  al  expresar  numeros  en 
millones  o  en  miles  de  millones  de  dolares. 

De  los  resultados  de  (6.2.15)  hasta  (6.2.20)  se  derivan  facilmente  algunos  casos  especiales. 
Por  ejemplo,  si  w\  =  vv2,  es  decir,  si  son  identicos  los  factores  de  escala,  el  coeficiente  de  la  pen- 
diente  y  su  error  estandar  permanecen  inalterados  en  el  cambio  de  escala  de  (Y„  Xt)  a  (Y*,  X*), 
lo  cual  intuitivamente  deberia  ser  claro.  Sin  embargo,  el  intercepto  y  su  error  estandar  estan 
multiplicados  por  w i.  Si  la  escala  X  no  se  cambia  (es  decir,  w2  =  1),  pero  la  escala  Y  se  cambia 
por  el  factor  w 1;  el  coeficiente  de  la  pendiente,  al  igual  que  el  intercepto  y  sus  errores  estandar 
respectivos,  se  multiplican  por  el  mismo  factor  w\.  Por  ultimo,  si  la  escala  Y permanece  inalterada 
(es  decir,  w\  =  1),  pero  la  escala  X  se  cambia  por  el  factor  w2,  el  coeficiente  de  la  pendiente  y 
su  error  estandar  se  multiplican  por  el  factor  ( 1  /w2),  pero  el  coeficiente  del  intercepto  y  su  error 
estandar  permanecen  inalterados. 

Sin  embargo,  debe  observarse  que  la  transformation  de  la  escala  ( Y,  X)  a  la  escala  (  Y*,  X*)  no 
afecta  las  propiedades  de  los  estimadores  de  MCO  analizadas  en  los  capitulos  anteriores. 


EJEMPLO  6.2 

Relation  entre  la 
IDPByelPIB, 
Estados  Unidos, 
1990-2005 


Para  demostrar  los  resultados  teoricos  anteriores,  consideremos  de  nuevo  los  datos  presentados 
en  la  tabla  6.2  y  examinemos  los  siguientes  resultados  (las  cifras  entre  parentesis  son  los  errores 
estandar  estimados). 

Si  las  escalas  de  la  IDPB  y  del  PIB  estan  en  miles  de  millones  de  dolares: 

fDPBf  =  -926.090  +  0.2535  PIBt 

ee=  (116.358)  (0.0129)  r2=  0.9648  (6.2.21) 

Si  las  escalas  de  la  IDPB  y  del  PIB  estan  en  millones  de  dolares: 

fDPBt  =  -926  090  +  0.2535  PIBt 

ee=  (116.358)  (0.0129)  r2=  0.9648  (6.2.22) 

Observe  que  el  intercepto,  lo  mismo  que  su  error  estandar,  es  1  000  veces  los  valores  correspon- 
dientes  de  la  regresion  (6.2.21 )  (observe  que  w-\  =  1  000  al  pasar  de  miles  de  millones  a  millones 
de  dolares),  pero  el  coeficiente  de  la  pendiente,  al  igual  que  su  error  estandar,  permanecen  sin 
cambio,  como  lo  afirma  la  teoria. 

La  IDPB  en  miles  de  millones  de  dolares  y  el  PIB  en  millones  de  dolares: 

fDPBf  =  -926.090  +  0.0002535  PIBt 

ee=  (116.358)  (0.0000129)  r2=  0.9648  (6.2.23) 

Como  se  esperaba,  el  coeficiente  de  la  pendiente,  al  igual  que  su  error  estandar,  es  (1/1  000) 
de  su  valor  en  (6.2.21),  pues  solo  se  modified  la  escala  de  X,  es  decir,  del  PIB. 

La  IDPB  en  millones  de  dolares  y  el  PIB  en  miles  de  millones  de  dolares: 

fDPBf  =  -926  090  +  253.524  PIBt 

ee=  (116  358.7)  (12.9465)  r2  =  0.9648 


(6.2.24) 
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De  nuevo,  observe  que  tanto  el  intercepto  como  el  coeficiente  de  la  pendiente  y  sus  errores  es¬ 
tandar  respectivos  son  1  000  veces  sus  valores  en  (6.2.21),  lo  cual  concuerda  con  los  resultados 
teoricos. 

Note  que,  en  todas  las  regresiones  presentadas  antes,  el  valor  de  r2  permanece  constante,  lo 
cual  no  sorprende  debido  a  que  el  valor  r2  es  invariable  respecto  de  los  cambios  en  las  unidades 
de  medicion,  pues  es  un  numero  puro  o  adimensional. 


Advertencia  sobre  la  interpretation 

Como  el  coeficiente  de  la  pendiente,  fc,  es  tan  solo  la  tasa  de  cambio,  esta  se  mide  en  las  unida¬ 
des  de  la  razon 


Unidades  de  la  variable  dependiente 
Unidades  de  la  variable  explicativa 

Asi,  en  la  regresion  (6.2.21),  la  interpretacion  del  coeficiente  de  la  pendiente  0.2535  es  que 
si  el  P1B  cambia  en  una  unidad,  de  1  000  millones  de  dolares,  la  IDPB  cambia  en  promedio  en 
0.2535  miles  de  millones  de  dolares.  En  la  regresion  (6.2.23),  una  unidad  de  cambio  en  el  P1B, 
que  es  1  millon  de  dolares,  induce  en  promedio  a  un  cambio  de  0.0002535  miles  de  millones  de 
dolares  en  la  IDPB.  Los  dos  resultados  son  por  supuesto  identicos  en  sus  efectos  del  P1B  sobre  la 
IDPB,  simplemente  estan  expresados  en  diferentes  unidades  de  medicion. 


6.3  Regresion  sobre  variables  estandarizadas 


En  la  seccion  anterior  vimos  que  las  unidades  con  que  se  expresan  la  variable  independiente 
(regresora)  y  la  dependiente  (regresada)  influyen  en  la  interpretacion  de  los  coeficientes  de  re¬ 
gresion.  Esto  se  evita  si  ambas  variables  (regresora  y  regresada)  se  expresan  como  variables 
estandarizadas.  Se  dice  que  una  variable  es  estandarizada  si  se  resta  el  valor  de  la  media  de  esta 
variable  de  sus  valores  individuales  y  se  divide  esa  diferencia  entre  la  desviacion  estandar  de 
la  variable. 

Asi,  en  la  regresion  de  Y y  X,  si  las  redefinimos  como: 

Y  —  Y 

Y*  =  (6.3.1) 

iox 

donde  Y  =  media  muestral  de  Y,  Sy  —  desviacion  estandar  muestral  d e  1,1  =  media  muestral 
de  X  y  Sx  =  desviacion  estandar  muestral  de  X;  las  variables  Y*  y  X*  se  Hainan  variables  es¬ 
tandarizadas. 

Una  propiedad  interesante  de  una  variable  estandarizada  es  que  el  valor  de  su  media  siempre 
es  ceroy  que  su  desviacion  estandar  siempre  es  1.  (Para  comprobar  lo  anterior,  vease  el  apendice 
6A,  seccion  6A.2.) 

Como  resultado,  no  importa  en  que  unidades  se  expresen  ambas  variables  (la  regresada  y  la 
regresora).  En  consecuencia,  en  lugar  de  llevar  a  cabo  la  regresion  estandar  (bivariada): 

Yj  =  Pi  +  foXi  +  Ui  (6.3.3) 

podemos  realizar  la  regresion  sobre  las  variables  estandarizadas  de  la  siguiente  manera: 


Y*  =  ft  +  P$X*  +  u* 
=  P$X*  +  u* 


(6.3.4) 

(6.3.5) 
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pues  resulta  sencillo  mostrar  que,  en  la  regresion  que  involucra  a  la  regresada  estandarizada  y  a 
la(s)  regresora(s)  estandarizada(s),  el  termino  del  intercepto  siempre  es  cero.6  Los  coeficientes 
de  regresion  de  las  variables  estandarizadas,  denotados  por  ft*  y  /If,  se  conocen  en  la  bibliografia 
como  los  coeficientes  beta.7  Por  cierto,  observe  que  (6.3.5)  es  una  regresion  a  traves  del  origen. 

^Como  se  interpretan  los  coeficientes  beta?  La  interpretacion  es  que  si  la  regresora  (estandari¬ 
zada)  se  incrementa  una  desviacion  estandar,  en  promedio,  la  regresada  (estandarizada)  aumenta 
j6f  unidades  de  desviacion  estandar.  Por  tanto,  a  diferencia  del  modelo  tradicional  (6.3.3),  se  mide 
el  efecto  no  en  terminos  de  las  unidades  originales  en  las  expresadas  X  y  Y,  sino  en  unidades 
de  desviacion  estandar. 

Para  mostrar  la  diferencia  entre  (6.3.3)  y  (6.3.5)  regresaremos  al  ejemplo  de  la  IDPB  y  el  PIB 
de  la  seccion  anterior.  Los  resultados  de  (6.2.21),  ya  examinados,  se  reproducen  a  continuacion: 


IDPB,  =  -926.090  +  0.2535  PIB, 

ee  =  (116.358)  (0.0129)  r2  =  0.9648 


(6.3.6) 


donde  la  IDPB  y  el  PIB  se  miden  en  miles  de  millones  de  dolares. 

Los  resultados  que  corresponden  a  (6.3.5)  son  los  siguientes,  en  donde  las  variables  con  aste- 
risco  son  variables  estandarizadas: 


IDPB*  =  0.9822  PIB) 
ee  =  (0.0485) 


(6.3.7) 


Ya  sabemos  interpretar  (6.3.6):  si  el  PIB  se  incrementa  un  dolar,  la  IDPB  aumenta,  en  prome¬ 
dio,  30  centavos.  <(Y  que  pasa  con  (6.3.7)?  Aqui  se  interpreta  como  sigue:  si  el  PIB  (estandari- 
zado)  se  incrementara  una  desviacion  estandar,  en  promedio,  la  IDPB  (estandarizada)  aumentaria 
casi  0.94  desviaciones  estandar. 

,;Cual  es  la  ventaja  del  modelo  de  regresion  estandarizado  respecto  del  modelo  tradicional? 
Esta  se  manifiesta  mejor  cuando  hay  mas  de  una  regresora,  tema  que  analizaremos  en  el  capitulo 
7.  Al  estandarizar  todas  las  regresoras,  quedan  expresadas  en  una  misma  base  y  por  consiguiente 
se  pueden  comparar  de  manera  directa.  Si  el  coeficiente  de  una  regresora  estandarizada  es  mayor 
que  el  de  otra  regresora  estandarizada  que  aparece  en  ese  modelo,  esta  ultima  contribuye  relati- 
vamente  mas  a  la  explicacion  de  la  regresada  de  lo  que  contribuye  la  primera.  En  otras  palabras, 
los  coeficientes  beta  sirven  como  medida  de  la  fuerza  relativa  de  las  diversas  regresoras.  Profun- 
dizaremos  mas  en  este  tema  en  los  dos  siguientes  capitulos. 

Antes  de  dar  por  terminado  este  asunto,  vale  la  pena  un  par  de  observaciones.  Primero,  para  la 
regresion  estandarizada  (6.3.7),  no  se  dio  el  valor  r2  porque  es  una  regresion  a  traves  del  origen, 
para  la  cual  no  se  aplica  la  r2  usual,  como  se  senalo  en  la  seccion  6.1.  Segundo,  existe  una  rela¬ 
cion  interesante  entre  los  coeficientes  f3  del  modelo  convencional  y  los  coeficientes  beta.  Para  el 
caso  bivariado,  la  relacion  es  como  sigue: 

fe=P2(j)  (6.3.8) 

donde  Sx  =  la  desviacion  estandar  muestral  de  la  regresora  X  y  Sv  =  la  desviacion  estandar 
muestral  de  la  regresada.  Por  consiguiente,  se  pueden  intercambiar  los  ft  con  los  coeficientes  beta 
si  se  conoce  la  desviacion  estandar  (muestral)  de  la  regresora  y  de  la  regresada.  En  el  siguiente 
capitulo  veremos  que  esta  relacion  se  cumple  tambien  para  la  regresion  multiple.  Se  deja  como 
ejercicio  para  el  lector  verificar  la  ecuacion  (6.3.8)  para  este  ejemplo  ilustrativo. 


6  Recuerde,  de  la  ecuacion  (3.1 .7),  que  el  intercepto  es  igual  al  valor  de  la  media  de  la  variable  dependiente 
menos  la  pendiente  multiplicada  por  el  valor  de  la  media  de  la  regresora.  No  obstante,  para  las  variables 
estandarizadas,  los  valores  de  la  media  de  la  variable  dependiente  y  de  la  regresora  son  cero.  Por  tanto,  el 
valor  del  intercepto  tambien  es  cero. 

7  No  confunda  estos  coeficientes  beta  con  los  coeficientes  beta  de  la  teorfa  financiera. 
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6.4  Formas  funcionales  de  los  modelos  de  regresion 


Como  mencionamos  en  el  capitulo  2,  este  texto  trata  sobre  todo  con  modelos  lineales  en  los 
parametros,  que  pueden  ser  o  no  lineales  en  las  variables.  En  las  secciones  que  siguen  considera- 
remos  algunos  modelos  de  regresion  muy  comunes,  que  pueden  ser  no  lineales  en  las  variables 
pero  si  lineales  en  los  parametros,  o  que  pueden  serlo  mediante  transformaciones  apropiadas  de 
las  variables.  En  particular,  analizaremos  los  siguientes  modelos  de  regresion: 

1.  El  modelo  log-lineal. 

2.  Modelos  semilogaritmicos. 

3.  Modelos  reciprocos. 

4.  El  modelo  logaritmico  reciproco. 

Ahora  analizaremos  las  caracteristicas  especiales  de  cada  modelo,  los  casos  en  los  cuales  su  uso 
es  apropiado  y  la  forma  de  estimarlos.  Cada  modelo  se  ilustra  con  ejemplos  apropiados. 


6.5  Como  medir  la  elasticidad:  modelo  log-lineal 


Considere  el  siguiente  modelo,  conocido  como  modelo  de  regresion  exponencial: 

Yi  =  (6.5.1) 

que  puede  expresarse  tambien  como8 


In  Yi  =  ln/b  +  P 2  In  X,  +  w, 


(6.5.2) 


donde  In  =  logaritmo  natural  (es  decir,  logaritmo  en  base  e  y  donde  e  —  2.7 18). 9 
Si  escribimos  (6.5.2)  como 


In  Yj  —  a  +  fa  lnX,-  +  m,-  (6.5.5) 

donde  a  =  In  este  modelo  es  lineal  en  los  parametros  a  y  fc,  lineal  en  los  logaritmos  de  las 
variables  Y  y  X,  y  se  estima  por  regresion  MCO.  Debido  a  esta  linealidad,  tales  modelos  se  deno- 
minan  modelos  log-log,  doble-log  o  log-lineales.  Vease  el  apendice  6A.3,  donde  se  explican  las 
propiedades  de  los  logaritmos. 

Si  se  cumplen  los  supuestos  del  modelo  clasico  de  regresion  lineal,  los  parametros  de  (6.5.3) 
se  estiman  por  el  metodo  MCO,  considerando  que 

Y*  =  a  +  p2X*  +  u  i  (6.5.4) 

donde  Y*  =  In  Y,  y  X*  =  In  Xt.  Los  estimadores  de  MCO  obtenidos,  a  y  /C,  seran  los  mejores 
estimadores  lineales  insesgados  de  a  y  fc,  respectivamente. 


8 Observe  estas  propiedades  de  los  logaritmos:  1)  ln(/tB)  =  In  A  +  In  fi,  2)  In (A/B)  =  In  A  —  In  By 
3)  In)/^)  =  k  In  A,  suponiendo  que  Ay  B  son  positivos,  y  donde  k  es  alguna  constante. 

9En  la  practica  se  pueden  utilizar  logaritmos  comunes,  es  decir,  logaritmos  base  10.  La  relacion  entre  el 
logaritmo  natural  y  el  logaritmo  comun  es:  lne  X  =  2.3026  logio  X.  Por  convencion,  In  significa  logaritmo 
natural  y  log  significa  logaritmo  base  1 0;  por  tanto,  no  hay  necesidad  de  escribir  los  subfndices  e  y  1 0 
explfcitamente. 
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FIGURA  6.3 

Modelo  de  elasticidad 
constante. 


Y 


In  Y 


a) 


b) 


Una  caracteristica  atractiva  del  modelo  log-log,  que  lo  ha  hecho  muy  popular  en  el  trabajo 
empirico,  es  que  el  coeficiente  de  la  pendiente  ftn  mide  la  elasticidad  de  Y  respecto  de  X,  es  decir, 
el  cambio  porcentual  en  Y  ante  un  pequeno  cambio  porcentual  en  X. 10  Asi,  si  Y  representa  la  can- 
tidad  demandada  de  un  bien  y  X  su  precio  unitario,  ftn  mide  la  elasticidad-precio  de  la  demanda, 
parametro  de  gran  interes  en  economia.  Si  la  relacion  entre  la  cantidad  demandada  y  el  precio  es 
como  se  muestra  en  la  figura  6.3a,  la  transformacion  doble-log  de  la  figura  6.3 b  dara  entonces  la 
estimacion  de  la  elasticidad-precio  ( — >62)- 

Pueden  observarse  dos  caracteristicas  especiales  del  modelo  log-lineal:  el  modelo  supone  que 
el  coeficiente  de  la  elasticidad  entre  Y  y  X,  ft 2 ,  permanece  constante  a  traves  del  tiempo  (<',por 
que?),  de  aqui  su  otro  nombre,  modelo  de  elasticidad  constante.* 11  En  otras  palabras,  como  lo 
indica  la  figura  63b,  el  cambio  en  In  Y  por  unidad  de  cambio  en  In  X  (es  decir,  la  elasticidad, 
ftp)  permanece  igual  sin  importar  en  cual  In  X  se  mida  la  elasticidad.  Otro  aspecto  del  modelo 
es  que,  a  pesar  de  que  iyft  son  estimadores  insesgados  de  a  y  fti,  ft\  (el  parametro  del  modelo 
original)  al  estimarse  como  ft  \  —  antilog  (a)  es,  en  si,  un  estimador  sesgado.  En  la  mayor  parte 
de  los  problemas  practicos,  sin  embargo,  el  termino  del  intercepto  es  de  importancia  secundaria 
y  no  es  necesario  preocuparse  por  obtener  este  estimador  insesgado.12 


10  El  coeficiente  de  elasticidad,  en  la  notacion  del  calculo,  se  define  como  ( dY/Y)/(dX/X )  =  \(dY/dX)(X/Y)]. 
Los  lectores  familiarizados  con  el  calculo  diferencial  se  daran  cuenta  facilmente  de  que  ^2  es,  en  efecto,  el 
coeficiente  de  elasticidad. 

Nota  tecnica:  El  lector  con  una  buena  formacion  en  calculo  notara  que  d(ln  X)/dX  =  1  /X  o  d(ln  X)  = 
dX/X,  es  decir,  para  cambios  infinitesimalmente  pequenos  (observe  el  operador  diferencial  d),  un  cambio 
en  In  X  es  igual  al  cambio  relativo  o  proporcional  en  X.  En  la  practica,  sin  embargo,  si  el  cambio  en  X  es  pe¬ 
queno,  esta  relacion  se  escribe  como:  cambio  en  In  X  —  cambio  relativo  en  X,  donde  =  significa  aproxima- 
damente  igual.  Asf,  para  cambios  pequenos, 

(In  Xt  —  In  Xt_i)  =  (Xt  —  Xt-i)/Xt-i  =  cambio  relativo  en  X 

A  proposito,  el  lector  debe  observar  estos  terminos,  a  los  que  se  hace  referenda  frecuentemente:  1)  cam¬ 
bio  absoluto,  2)  cambio  relativo  o  proporcional  y  3)  cambio  porcentual  o  tasa  de  crecimiento 
porcentual.  Asf,  (Xt  -  Xt_i)  representa  un  cambio  absoluto,  (Xt  —  Xt_i)/Xt_i  =  (Xt/Xt_i  —  1)  es  un  cambio 
relativo  o  proporcional,  y  [(Xt  —  Xt_i)/Xt_i]1 00  es  el  cambio  porcentual,  o  la  tasa  de  crecimiento.  Xty  Xt_i 
son  los  valores  actual  y  anterior  de  la  variable  X,  respectivamente. 

11  Un  modelo  de  elasticidad  constante  permitira  obtener  un  cambio  constante  en  el  ingreso  total  ante  un 
cambio  porcentual  dado  en  precios  sin  importar  el  nivel  absoluto  del  precio.  Los  lectores  deben  contrastar 
este  resultado  con  las  condiciones  de  elasticidad  que  implica  una  funcion  de  demanda  lineal  simple,  Y,= 

+  P2 X/+  Uj.  Sin  embargo,  una  funcion  lineal  simple  permite  obtener  un  cambio  constante  en  la  cantidad 
generada  por  un  cambio  unitario  en  el  precio.  Confronte  esto  con  lo  que  implica  el  modelo  log-lineal  para 
un  cambio  nominal  en  los  precios. 

12  En  relacion  con  la  naturaleza  del  sesgo  y  lo  que  puede  hacerse  al  respecto,  vease  Arthur  S.  Goldberger, 
Topics  in  Regression  Analysis,  Macmillan,  Nueva  York,  1978,  p.  120. 
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En  el  modelo  de  dos  variables,  la  forma  mas  simple  de  decidir  si  el  modelo  log-lineal  se  ajusta 
a  los  datos  es  graficar  el  diagrama  de  dispersion  de  In  Yi  frente  a  In  X,  y  ver  si  las  observaciones 
caen  mas  o  menos  sobre  una  llnea  recta,  como  en  la  figura  63b. 

Advertencia:  El  lector  debe  tener  presente  la  distincion  entre  un  cambio  porcentual  y  uno  en 
puntos  porcentuales.  Por  ejemplo,  la  tasa  de  desempleo  a  menudo  se  expresa  en  forma  de  porcen- 
taje;  por  decir,  una  tasa  de  desempleo  de  6%.  Si  esta  tasa  aumenta  a  8%,  se  dice  que  el  cambio  en 
puntos  porcentuales  de  la  tasa  de  desempleo  es  2,  mientras  que  el  cambio  porcentual  de  la  tasa 
de  desempleo  es  (8  —  6)/6,  o  alrededor  de  33%.  Por  consiguiente,  hay  que  tener  cuidado  cuando 
se  trabaja  con  cambios  porcentuales  y  cambios  en  puntos  porcentuales,  pues  son  dos  conceptos 
muy  diferentes. 


EJEMPLO  6.3 

Gasto  en  bienes  du- 
raderos  en  relation 
con  el  gasto  de  con- 
sumo  personal  total 


TAB  LA  6.3 

Gasto  personal  total 
y  categorias  (miles  de 
millones  de  dolares  de 
2000  ajustados  por  la 
intlacion;  datos  trimes- 
trales  con  tasas  anuales 
ajustadas  por  estacio- 
nalidad) 

Fuentes:  Departamento  de 
Comercio,  Oficina  de  Analisis 
Economico,  Economic  Report 
of  the  President,  2007,  tabla 
B-17,  p.  347. 


La  tabla  6.3  presenta  datos  sobre  el  gasto  de  consumo  personal  total  (GCPERT),  el  gasto  en 
bienes  duraderos  (GASBD),  el  gasto  en  bienes  perecederos  (GASBPER)  y  el  gasto  en  servicios 
(GASERV),  todos  medidos  en  miles  de  millones  de  dolares  de  2000. 13 

Suponga  que  deseamos  calcular  la  elasticidad  del  gasto  en  bienes  duraderos  respecto  del 
gasto  de  consumo  personal  total.  Al  graficar  el  logaritmo  del  gasto  en  bienes  duraderos  contra  el 
logaritmo  del  gasto  de  consumo  personal  total,  observara  que  la  relacion  entre  las  dos  variables 
es  lineal.  Por  tanto,  el  modelo  del  doble  logaritmo  puede  resultar  adecuado.  Los  resultados  de 
la  regresion  son: 

IrTGASBDf  =  -7.5417  +  1 .6266  In  GCPERT, 

ee=  (0.7161)  (0.0800)  (6.5.5) 

f=  (-10.5309)*  (20.3152)*  r2  =  0.9695 

donde  *  indica  que  el  valor  p  es  en  extremo  pequeno. 


Ano  o  trimestre 

GASERV 

GASBD 

GASBPER 

GCPERT 

2003-1 

4  143.3 

971.4 

2  072.5 

7  184.9 

2003-11 

4  161.3 

1  009.8 

2  084.2 

7  249.3 

2003-111 

4  190.7 

1  049.6 

2  123.0 

7  352.9 

2003-IV 

4  220.2 

1  051.4 

2  132.5 

7  394.3 

2004-1 

4  268.2 

1  067.0 

2  155.3 

7  479.8 

2004-11 

4  308.4 

1  071.4 

2  164.3 

7  534.4 

2004-111 

4  341.5 

1  093.9 

2  184.0 

7  607.1 

2004-IV 

4  377.4 

1  110.3 

2  213.1 

7  687.1 

2005-1 

4  395.3 

1  116.8 

2  241 .5 

7  739.4 

2005-11 

4  420.0 

1  150.8 

2  268.4 

7  819.8 

2005-111 

4  454.5 

1  175.9 

2  287.6 

7  895.3 

2005-IV 

4  476.7 

1  137.9 

2  309.6 

7  910.2 

2006-1 

4  494.5 

1  190.5 

2  342.8 

8  003.8 

2006-11 

4  535.4 

1  190.3 

2  351.1 

8  055.0 

2006-111 

4  566.6 

1  208.8 

2  360.1 

8  111.2 

Nota:  Vease  la  tabla  B-2,  que  contiene  datos  sobre  el  gasto  de  consumo  personal  total  correspondientes  a  1959-1989. 
GASERV  =  gasto  en  servicios  (miles  de  millones  de  dolares  de  2000). 

GASBD  =  gasto  en  bienes  duraderos  (miles  de  millones  de  dolares  de  2000). 

GASBPER  =  gasto  en  bienes  perecederos  (miles  de  millones  de  dolares  de  2000). 

GCPERT  =  gasto  de  consumo  personal  total  (miles  de  millones  de  dolares  de  2000). 


( continua ) 


13  Los  bienes  duraderos  son  vehfculos  automotores  y  refacciones,  muebles  y  equipo  domestico;  los  bienes 
perecederos  son  comida,  ropa,  gasolina,  aceite,  combustible  de  petroleo  y  carbon  mineral;  y  los  servicios 
son  vivienda,  electricidad  y  gas,  transpose  y  atencion  medica. 
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EJEMPLO  6.3  Como  muestran  estos  resultados,  la  elasticidad  de  GASBD  respecto  de  GCPERT  es  de  casi 

( continuation )  1  -63,  lo  que  indica  que  si  el  gasto  personal  total  aumenta  1%,  en  promedio,  el  gasto  en  bienes 

duraderos  se  incrementara  casi  1 .63%.  En  consecuencia,  el  gasto  en  bienes  duraderos  es  muy 
sensible  a  los  cambios  en  el  gasto  de  consumo  personal.  Por  esta  razon,  los  productores  de  bie¬ 
nes  duraderos  siguen  muy  de  cerca  los  cambios  en  el  ingreso  personal  y  el  gasto  de  consumo 
personal.  En  el  ejercicio  6.18  se  pide  al  lector  que  realice  un  ejercicio  similar  para  el  gasto  en 
bienes  perecederos. 


6.6  Modelos  semilogaritmicos:  log-lin  y  lin-log 

Como  medir  la  tasa  de  crecimiento: 
modelo  log-lin 

A  los  economistas,  comerciantes  y  gobiernos  con  frecuencia  les  interesa  encontrar  la  tasa  de 
crecimiento  de  ciertas  variables  economicas,  como  poblacion,  PNB,  oferta  monetaria,  empleo, 
productividad  y  deficit  comercial. 

Suponga  que  deseamos  conocer  la  tasa  de  crecimiento  del  gasto  de  consumo  personal  en  ser¬ 
vices  para  los  datos  de  la  tabla  6.3.  Sea  Y,  el  gasto  real  en  servicios  en  el  tiempo  t  y  Y0  el  valor 
inicial  del  gasto  en  servicios  (es  decir,  el  valor  al  final  del  cuarto  trimestre  de  2002).  Recordara  la 
muy  conocida  formula  del  interes  compuesto,  vista  en  los  cursos  basicos  de  economia. 

Yt=Y0(]  +r)‘  (6.6.1) 

donde  r  es  la  tasa  de  crecimiento  compuesta  de  Y  (es  decir,  a  traves  del  tiempo).  Con  el  logaritmo 
natural  de  (6.6.1),  escribimos 


In  Y,  =  In  Yq  +  t  In  ( 1  +  r) 

(6.6.2) 

Ahora,  con 

Pi  =  In  L0 

(6.6.3) 

Pi  —  In  (1  +  r) 

(6.6.4) 

escribimos  (6.6.2)  asi 

In  Yt  —  P\  +p2t 

(6.6.5) 

Al  agregar  el  termino  de  perturbation  a  (6.6.5),  obtenemos14 

In  Y,  =  Pi  +  p2t  +  ut 

(6.6.6) 

Este  modelo  es  como  cualquier  otro  modelo  de  regresion  lineal  en  el  sentido  de  que  los  para- 
metros  ySi  y  p2  son  lineales.  La  unica  diferencia  es  que  la  variable  dependiente  o  regresada  es  el 
logaritmo  de  Yy  la  regresora  o  variable  explicativa  es  el  “tiempo”,  que  adquiere  valores  de  1,2, 
3,  etcetera. 

Los  modelos  como  (6.6.6)  se  denominan  modelos  semilog  porque  solo  una  variable  (en  este 
caso,  la  regresada)  aparece  en  forma  logaritmica.  Para  fines  descriptivos,  un  modelo  en  el  cual  la 
variable  regresada  es  logaritmica  se  denomina  modelo  log-lin.  Mas  adelante  consideraremos  un 
modelo  en  el  cual  la  variable  regresada  es  lineal  pero  la(s)  regresora(s)  es  (son)  logaritmica) s): 
un  modelo  lin-log. 


14  Agregamos  el  termino  de  error  porque  la  formula  de  interes  compuesto  no  se  cumple  con  exactitud.  La 
razon  de  agregar  el  error  despues  de  la  transformation  logaritmica  se  expone  en  la  seccion  6.8. 
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EJEMPLO  6.4 

Tasa  de  crecimiento 
del  gasto  en 
servicios 


FIGURA  6.4 


Antes  de  presentar  los  resultados  de  la  regresion,  examinemos  las  propiedades  del  modelo 
(6.6.5).  En  este  modelo,  el  coeficiente  de  la  pendiente  mide  el  cambio  proporcional  constante  o 
relativo  en  Y para  un  cambio  absoluto  dado  en  el  valor  de  la  regresora  (en  este  caso,  la  variable 
t),  es  decir,15 


cambio  relativo  en  regresada 
cambio  absoluto  en  la  regresora 


(6.6.7) 


Si  multiplicamos  el  cambio  relativo  en  Y  por  100,  (6.6.7)  dara  entonces  el  cambio  porcentual, 
o  la  tasa  de  crecimiento,  en  Y  ocasionada  por  un  cambio  absoluto  en  X,  la  variable  regresora. 
Es  decir,  100  por  da  como  resultado  la  tasa  de  crecimiento  en  Y\  100  por  /ft  se  conoce  en  la 
bibliografia  como  la  semielasticidad  de  Y  respecto  de  A.  (Pregunta:  Para  conocer  la  elasticidad, 
^que  debemos  hacer?)16 


Para  ilustrar  el  modelo  de  crecimiento  (6.6.6),  considere  los  datos  sobre  el  gasto  en  servicios 
proporcionados  en  la  tabla  6.3.  Los  resultados  de  la  regresion  a  traves  del  tiempo  (f)  son  los 
siguientes: 

lnGESt  =  8.3226  +  0.00705f 

ee  =  (0.0016)  (0.00018)  r2=0.9919  (6.6.8) 

t  =  (5  201.625)*  (39.1667)* 

Nota:  GES  significa  gasto  en  servicios,  y  el  asterisco  (*)  denota  que  el  valor  p  es  en  extremo 

pequeno. 

La  interpretacion  de  la  ecuacion  (6.6.8)  es  que  durante  los  periodos  trimestrales  de  2003-1  a 
2006-111,  el  gasto  en  servicios  se  incremento  con  una  tasa  (trimestral)  de  0.705%.  Aproximada- 
mente,  esto  equivale  a  un  crecimiento  anual  de  2.82%.  Como  8.3226  =  log  de  GES  al  comienzo 
del  periodo  de  analisis,  si  se  toma  su  antilogaritmo  obtenemos  4  115.96  (miles  de  millones  de 
dolares)  como  el  valor  inicial  de  GES  (es  decir,  el  valor  a  principios  de  2003).  En  la  figura  6.4  se 
ilustra  la  linea  de  regresion  obtenida  con  la  ecuacion  (6.6.8). 


0  2  4  6  8  10  12  14  16 

Tiempo 


S  8.44 
'o 

1  8.42 

C/3 

S  8.40 

O 

I  8.38 
13 

8.36 

o 

a 

•c  8.34 
a 


15  Mediante  calculo  diferencial  se  demuestra  que  ft  =  d(ln  Y)/dX  =  (1  /Y)(dY/dX)  =  ( dY/Y)/d\ ,  que  no  es 
otra  cosa  que  la  ecuacion  (6.6.7).  Para  cambios  pequenos  en  Yy  en  X,  esta  relacion  puede  aproximarse  me¬ 
diante 


(n- Vi)/Vi 

(Xt-Xt_i) 

Nota:  Aqui,  X  =  t. 

16  Veanse  varias  formulas  de  crecimiento  en  el  apendice  6A.4. 
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Tasas  de  crecimiento  instantanea  y  compuesta 

El  coeficiente  de  la  variable  de  tendencia  del  modelo  de  crecimiento  (6.6.6),  Pi,  da  la  tasa  de 
crecimiento  instantanea  (en  un  momento  dado)  y  no  la  compuesta  (durante  un  periodo).  Pero 
esta  ultima  se  calcula  facilmente  a  partir  de  (6.6.4).  Para  ello,  se  obtiene  el  antilogaritmo  de  la  Pi 
estimada,  se  resta  1  y  se  multiplica  la  diferencia  por  100.  Por  tanto,  para  el  ejemplo  ilustrativo, 
el  coeficiente  estimado  de  la  pendiente  es  0.00743.  Asi,  [antilog(0. 00746)  —  1]  =  0.00746  o 
0.746%.  En  consecuencia,  en  el  ejemplo  ilustrativo,  la  tasa  compuesta  de  crecimiento  de  gastos 
en  servicios  fue  de  casi  0.746%  por  trimestre,  lo  cual  es  un  poco  mayor  que  la  tasa  de  crecimiento 
instantanea  de  0.743%.  Lo  anterior  se  debe,  por  supuesto,  al  efecto  de  la  composicion. 


Modelo  de  tendencia  lineal 

En  lugar  de  estimar  el  modelo  (6.6.6),  los  investigadores  algunas  veces  estiman  el  siguiente 
modelo: 


Yt  —  Pi  +  Pit  +  ut 


(6.6.9) 


Es  decir,  en  lugar  de  regresar  el  log  de  Y  sobre  el  tiempo,  regresan  Y  sobre  el  tiempo,  donde  Y  es 
la  variable  regresada  en  consideration.  Un  modelo  de  este  tipo  se  denomina  modelo  de  tenden¬ 
cia  lineal,  y  la  variable  tiempo  t  se  conoce  como  variable  de  tendencia.  Si  el  coeficiente  de  la 
pendiente  en  (6.6.9)  es  positivo,  existe  una  tendencia  creciente  en  Y,  mientras  que  si  es  negativa, 
existe  una  tendencia  decreciente  en  Y. 

Para  los  datos  sobre  el  gasto  en  servicios  que  analizamos  antes,  los  resultados  de  ajustar  el 
modelo  de  tendencia  lineal  (6.6.9)  son  los  siguientes: 


GES,  =  4  111.545  +  30.674t 

t  =  (655.5628)  (44.4671)  r2  =  0.9935 


(6.6.10) 


En  contraste  con  la  ecuacion  (6.6.8),  la  interpretation  de  la  ecuacion  (6.6.10)  es  la  siguiente: 
durante  los  periodos  trimestrales  de  2003-1  a  2006-III,  en  promedio,  el  gasto  en  servicios  se  in- 
cremento  con  una  tasa  absoluta  (not a:  no  relativa)  de  alrededor  de  30  000  millones  de  dolares  por 
trimestre.  Es  decir,  hubo  una  tendencia  creciente  en  el  gasto  en  servicios. 

La  election  entre  el  modelo  de  crecimiento  (6.6.8)  y  el  modelo  de  tendencia  lineal  (6.6.10) 
dependera  de  que  el  interes  recaiga  en  el  cambio  relativo  o  absoluto  del  gasto  en  servicios,  aun- 
que,  para  propositos  de  comparacion,  es  el  cambio  relativo  el  que  tiene  mayor  importancia.  A 
proposito,  observe  que  no  se pueden  comparar  los  valores  de  r2  de  los  modelos  (6.6.8)  y  (6.6.10), 
pues  las  regresadas  o  variables  dependientes  son  diferentes  en  los  dos  modelos.  Veremos  en  el 
capitulo  7  la  forma  de  comparar  las  r2  de  los  modelos  como  el  (6.6.8)  y  el  (6.6.10). 


El  modelo  lin-log 

A  diferencia  del  modelo  de  crecimiento  recien  estudiado,  en  el  cual  nos  interesaba  encontrar  el 
crecimiento  porcentual  en  Y  ante  un  cambio  unitario  absoluto  en  X,  ahora  deseamos  encontrar  el 
cambio  absoluto  en  Y  debido  a  un  cambio  porcentual  enX  Un  modelo  que  cumple  este  proposito 
se  escribe  como 


Y,  —  P\  +  Pi  lnX,  +  ut 


(6.6.11) 


Con  fines  descriptivos  se  le  llama  modelo  lin-log. 
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EJEMPLO  6.5 


Interpretemos  el  coeficiente  de  la  pendiente  /b-17  Como  de  costumbre, 

cambio  en  Y 
cambio  en  In  X 
cambio  en  Y 
cambio  relativo  en  X 


El  segundo  paso  se  deriva  de  que  un  cambio  en  el  log  de  un  numero  es  un  cambio  relativo. 
Simbolicamente,  tenemos 


h. 


A  Y 

ax/x 


(6.6.12) 


donde,  como  es  usual,  A  denota  un  cambio  pequeno.  La  ecuacion  (6.6.12)  se  escribe,  en  forma 
equivalente,  asi: 


A  Y  =  p2(XX/X) 


(6.6.13) 


Esta  ecuacion  plantea  que  el  cambio  absoluto  en  7(=  A  Y)  es  igual  a  la  pendiente  multiplicada 
por  el  cambio  relativo  enX  Si  este  ultimo  se  multiplica  por  100,  entonces  (6.6.13)  da  el  cambio 
absoluto  en  Y ocasionado  por  un  cambio  porcentual  enX  Asi,  si  AX/ X cambia  en  0.01  unidades 
(o  1%),  el  cambio  absoluto  en  Y es  0.01(/b).  Por  tanto,  si  en  una  aplicacion  se  encuentra  que  /b  = 
500,  el  cambio  absoluto  en  Y es  (0.0 1  )(500)  =  5.0.  Por  consiguiente,  cuando  se  utiliza  MCO  para 
estimar  regresiones  como  en  (6.6.1 1),  se  debe  multiplicar  el  valor  del  coeficiente  estimado  de  la 
pendiente  por  0.01,  o,  lo  que  es  lo  mismo,  dividirlo  entre  100.  Si  no  tiene presente  lo  anterior,  la 
interpretacion  en  una  aplicacion  serci  muy  equivocada. 

La  pregunta  practica  es:  ^cuando  resulta  util  un  modelo  lin-log  como  el  (6.6.1 1)?  Se  ha  encon- 
trado  una  interesante  aplicacion  en  los  asi  llamados  modelos  de  gasto  Engel  [en  honor  del  es- 
tadistico  aleman  Ernst  Engel  (1821-1896)]  (vease  el  ejercicio  6.10).  Engel  postulo  que  “el  gasto 
total  que  se  dedica  a  los  alimentos  tiende  a  incrementarse  en  progresion  aritmetica,  mientras  que 
el  gasto  total  aumenta  en  progresion  geometrica”.18 


Como  ejemplo  del  modelo  lin-log,  revise  el  ejemplo  sobre  gasto  alimentario  en  India,  ejemplo 
3.2.  Ahf  ajustamos  un  modelo  lineal  en  las  variables,  como  primera  aproximacion.  Pero  si  grafi- 
camos  los  datos,  obtenemos  el  grafico  de  la  figura  6.5.  Como  esta  figura  indica,  el  gasto  alimen¬ 
tario  se  incrementa  mas  despacio,  conforme  el  gasto  total  aumenta,  lo  cual  quiza  sustente  la  ley 
de  Engel.  Los  resultados  de  ajustar  el  modelo  lin-log  a  los  datos  son  los  siguientes: 

GasAN,  =  -1  283.91 2  +  257.2700  In  GasTot, 

t=  (-4.3848)*  (5.6625)*  r2  =  0.3769  (6.6.14) 

Nota:  (*)  denota  un  valor  p  en  extremo  pequeno. 

( continua ) 


17  Una  vez  mas,  mediante  calculo  diferencial,  tenemos 


Por  consiguiente, 


ih  =  w  =  (6.6.12) 
x 


18  Vease  Chandan  Mukherjee,  Howard  White  y  Marc  Wuyts,  Econometrics  and  Data  Analysis  for  Developing 
Countries,  Routledge,  Londres,  1998,  p.  158.  Esta  cita  se  atribuye  a  H.  Working,  "Statistical  Laws  of  Family 
Expenditure",  journal  of  the  American  Statistical  Association,  vol.  38,  1943,  pp.  43-56. 
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EJEMPLO  6.5 

( continuation ) 


FIGURA  6.5 
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Interpretado  de  la  forma  antes  descrita,  el  coeficiente  de  la  pendiente,  que  vale  casi  257, 
significa  que  un  incremento  en  el  gasto  total  en  alimentos  de  1%,  en  promedio,  propicia  un 
incremento  de  casi  2.57  rupias  en  el  gasto  en  alimento  de  las  55  familias  incluidas  en  la  muestra. 
(Nota:  El  coeficiente  estimado  de  la  pendiente  se  dividio  entre  100.) 

Antes  de  seguir,  observe  que  si  desea  calcular  el  coeficiente  de  elasticidad  para  los  modelos 
lin-log  o  log-lin,  puede  hacerlo  a  partir  de  la  definicion  del  coeficiente  de  elasticidad  dada  antes, 
a  saber: 

Elasticidad  = 

dX  Y 

En  la  practica,  al  conocer  la  forma  funcional  de  un  modelo,  se  pueden  calcular  las  elasticidades 
con  la  definicion  anterior.  (La  tabla  6.6,  que  se  presenta  mas  adelante,  resume  los  coeficientes 
de  elasticidad  para  los  diversos  modelos.) 


Debe  senalarse  que,  algunas  veces,  la  transformation  logaritmica  se  emplea  para  reducir  la 
heteroscedasticidad,  as!  como  la  asimetrla.  (Vease  el  capltulo  11.)  Una  caracteristica  comun  de 
muchas  variables  economicas  es  que  tienen  asimetria  positiva  (por  ejemplo,  distribucion  del  ta- 
mano  de  las  empresas,  o  distribucion  del  ingreso  o  riqueza)  y  son  heteroscedasticas.  Una  trans¬ 
formacion  logaritmica  de  dichas  variables  reduce  tanto  la  asimetria  como  la  heteroscedasticidad. 
Por  eso,  los  economistas  laborales  acostumbran  usar  logaritmos  de  los  salarios  en  la  regresion  de 
estos  sobre,  por  poner  un  ejemplo,  el  nivel  de  escolaridad,  medido  este  por  los  anos  de  education 
recibida. 


6.7  Modelos  recfprocos 


Los  modelos  del  siguiente  tipo  se  conocen  como  modelos  reriprocos. 

Yt=P  i+ft(  +Ui  (6.7.1) 

A  pesar  de  que  este  modelo  es  no  lineal  en  la  variable  X  porque  entra  inversamente  o  en 
forma  reciproca,  el  modelo  es  lineal  en  y  /L,  y,  por  consiguiente,  es  un  modelo  de  regresion 
lineal.19 

Este  modelo  tiene  las  siguientes  caracteristicas:  a  medida  que  X  aumenta  indefinidamente, 
el  termino  (1/A)  se  acerca  a  cero  (nota:  /L  es  una  constante)  y  Y  se  aproxima  al  valor  limite 


19  Si  X*  =  (1  /X,),  entonces  la  ecuacion  (6.7.1)  es  lineal  en  los  parametros  al  igual  que  en  las  variables  Y-,  y  X*. 
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FIGURA  6.6 


El  modelo  reclproco: 


Y 


Pi 


c) 


o  asintotico  fi\.  Por  consiguiente,  modelos  como  (6.7.1)  contienen  un  valor  asintotico  o  llmite 
que  tomara  la  variable  dependiente  cuando  el  valor  de  la  variable  X  aumente  indefinidamente.20 
Algunas  formas  probables  de  la  curva  correspondiente  a  (6.7.1)  se  muestran  en  la  figura  6.6. 


EJEMPLO  6.6 

Como  un  ejemplo  de  la  figura  6.60,  considere  los  datos  de  la  tabla  6.4.  Son  datos  transversales 
de  64  palses  sobre  mortalidad  infantil  y  otras  variables.  Por  el  momento,  hay  que  concentrarse 
en  las  variables  de  mortalidad  infantil  (Ml)  y  PIB  per  capita  (PIBPC),  que  se  grafican  en  la  figura 

6.7. 

Como  se  ve,  esta  figura  se  parece  a  la  6.60:  conforme  se  incrementa  el  PIB  per  capita,  se 
esperarla  que  la  mortalidad  infantil  disminuyera,  debido  a  que  las  personas  pueden  gastar  mas 
en  el  cuidado  de  la  salud,  si  se  supone  que  los  demas  factores  permanecen  constantes.  Pero 
la  relacion  no  da  como  resultado  una  llnea  recta:  conforme  se  incrementa  el  PIB  per  capita,  al 
principio  existe  una  disminucion  drastica  de  la  Ml,  pero  disminuye  en  la  medida  en  que  el  PIB 

per  capita  sigue  en  aumento. 

FIGURA  6.7 

Mortalidad  infantil  y  PIBPC 

Relacion  entre  la  mor- 
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(continua) 

20  La  pendiente  de  la  ecuacion  (6.7.1)  es:  dY/dX  =  -ft(1  /X2),  e  implica  que  si  ft  es  positivo,  la  pendiente 
siempre  es  negativa,  y  si  ft  es  negativa,  la  pendiente  siempre  es  positiva.  Veanse  las  figuras  6.60  y  6.6c,  res- 
pectivamente. 
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EJEMPLO  6.6 

TAB  LA  6.4  Fecundidad  y  otros  datos  de  64  paises 

(i continuation ) 

Observacion  Ml 

TAF 

PIBPC 

TFT  Observacion 

Ml 

TAF 

PIBPC 

TFT 

1 

128 

37 

1  870 

6.66 

33 

142 

50 

8  640 

7.17 

2 

204 

22 

130 

6.15 

34 

104 

62 

350 

6.60 

3 

202 

16 

310 

7.00 

35 

287 

31 

230 

7.00 

4 

197 

65 

570 

6.25 

36 

41 

66 

1  620 

3.91 

5 

96 

76 

2  050 

3.81 

37 

312 

11 

190 

6.70 

6 

209 

26 

200 

6.44 

38 

77 

88 

2  090 

4.20 

7 

170 

45 

670 

6.19 

39 

142 

22 

900 

5.43 

8 

240 

29 

300 

5.89 

40 

262 

22 

230 

6.50 

9 

241 

11 

120 

5.89 

41 

215 

12 

140 

6.25 

10 

55 

55 

290 

2.36 

42 

246 

9 

330 

7.10 

11 

75 

87 

1  180 

3.93 

43 

191 

31 

1  010 

7.10 

12 

129 

55 

900 

5.99 

44 

182 

19 

300 

7.00 

13 

24 

93 

1  730 

3.50 

45 

37 

88 

1  730 

3.46 

14 

165 

31 

1  150 

7.41 

46 

103 

35 

780 

5.66 

15 

94 

77 

1  160 

4.21 

47 

67 

85 

1  300 

4.82 

16 

96 

80 

1  270 

5.00 

48 

143 

78 

930 

5.00 

17 

148 

30 

580 

5.27 

49 

83 

85 

690 

4.74 

18 

98 

69 

660 

5.21 

50 

223 

33 

200 

8.49 

19 

161 

43 

420 

6.50 

51 

240 

19 

450 

6.50 

20 

118 

47 

1  080 

6.12 

52 

312 

21 

280 

6.50 

21 

269 

17 

290 

6.19 

53 

12 

79 

4  430 

1.69 

22 

189 

35 

270 

5.05 

54 

52 

83 

270 

3.25 

23 

126 

58 

560 

6.16 

55 

79 

43 

1  340 

7.17 

24 

12 

81 

4  240 

1.80 

56 

61 

88 

670 

3.52 

25 

167 

29 

240 

4.75 

57 

168 

28 

410 

6.09 

26 

135 

65 

430 

4.10 

58 

28 

95 

4  370 

2.86 

27 

107 

87 

3  020 

6.66 

59 

121 

41 

1  310 

4.88 

28 

72 

63 

1  420 

7.28 

60 

115 

62 

1  470 

3.89 

29 

128 

49 

420 

8.12 

61 

186 

45 

300 

6.90 

30 

27 

63 

19  830 

5.23 

62 

47 

85 

3  630 

4.10 

31 

152 

84 

420 

5.79 

63 

178 

45 

220 

6.09 

32 

224 

23 

530 

6.50 

64 

142 

67 

560 

7.20 

Notas:  MI 

=  mortalidad  infantil,  el  numero  de  defunciones  de  ninos  menores  de  5  anos  en 

un  ano  por  cada  1  000  nacidos  vivos. 

TAF 

=  tasa  de  alfabetismo  femenina  (porcentaje). 

PIBPC 

=  PIB  per  capita  en  1980. 

TFT 

=  tasa  de  fecundidad  total,  1980-1985,  cantidad  promedio  de  hijos  por  mujer,  con  tasas  de  fecundidad  para  edades  es- 

pecificas  en  un  ano  determinado. 

Fuente:  Chandan  Mukherjee,  Howard  White  y  Marc  Whyte,  Econometrics  and  Data  Analysis  for  Developing  Countries ,  Routledge, 

Londres,  1998,  p.  456. 

Si  tratamos  de  ajustar  el  modelo  redproco  (6.7.1),  obtenemos  los  siguientes  resultados: 

Ml ,  = 

81.79436  4- 27  237.1  7^ 

M 

V  PIBPC, ) 

(6.7.2) 

ee  = 

(10.8321) 

(3  759.999) 

t= 

(7.5511) 

(7.2535) 

r2  =  0.4590 

Conforme  el  PIB  per  capita  se  incrementa  indefinidamente,  la  mortalidad  infantil  se  acerca  a  su 

valor  asintotico  de  casi 

82  muertes  por  miliar.  Como  se  explico  en  la  nota  20, 

el  valor  positivo 

del  coeficiente  de  (1  /PIBPQ) 

implica 

que  la  tasa  de  cambio  de  la  Ml  respecto  del  PIBPC  es  ne- 

gativa. 
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FIGURA  6.8  La  curva  de  Phillips. 


Una  aplicacion  importante  de  la  figura  6.6 b  es  la  conocida  curva  de  Phillips  de  macroecono- 
mia.  Con  base  en  los  datos  de  tasa  de  variacion  porcentual  de  los  salarios  nominales  (Y)  y  la  tasa 
porcentual  de  desempleo  (X)  en  el  Reino  Unido  durante  el  periodo  1 861  a  1957,  Phillips  obtuvo 
una  curva  cuya  forma  general  se  parece  a  la  figura  6.6 b  (figura  6. 8). 21 

Como  muestra  la  figura  6.8,  existe  asimetna  en  la  respuesta  de  los  cambios  salariales  en  el 
nivel  de  la  tasa  de  desempleo:  los  salarios  aumentan  con  mayor  rapidez  por  cada  unidad  de 
cambio  en  el  desempleo  si  la  tasa  de  desempleo  esta  por  debajo  de  UN,  denominada  por  los 
economistas  tasa  natural  de  desempleo  (que  se  define  como  la  tasa  de  desempleo  requerida 
para  mantener  constante  la  inflacion  [salarial]),  y  luego  disminuyen  despacio  por  un  cambio 
equivalente  cuando  la  tasa  de  desempleo  esta  por  encima  del  nivel  natural,  UN,  lo  que  indica  el 
piso  asintotico,  o  —  fa,  para  el  cambio  salarial.  Esta  caracterfstica  particular  de  la  curva  de  Phillips 
puede  deberse  a  factores  institucionales,  como  el  poder  de  negociacion  de  los  sindicatos,  los 
salarios  mfnimos,  compensaciones  por  desempleo,  etcetera. 

Desde  la  publicacion  del  artfculo  de  Phillips  se  efectuo  una  muy  extensa  investigacion  sobre  la 
curva  de  Phillips  tanto  en  el  nivel  teorico  como  en  el  empfrico.  El  espacio  de  este  libro  no  permite 
estudiar  los  detalles  de  la  controversia  en  torno  a  la  curva  de  Phillips.  La  curva  misma  ha  pasado 
por  diversas  representaciones.  Una  formulacion  comparativamente  reciente  la  proporciona  Oli¬ 
vier  Blanchard.22  Si  nt  denota  la  tasa  de  inflacion  en  el  tiempo  t,  que  se  define  como  el  cambio 
porcentual  en  el  nivel  de  precios  medido  por  un  fndice  de  precios  representative,  como  el  fndice 
de  precios  al  consumidor  (IPC),  y  si  UNt  denota  la  tasa  de  desempleo  en  el  tiempo  t,  entonces  la 
version  moderna  de  la  curva  de  Phillips  se  expresa  segun  el  siguiente  formato: 

Tit  -  K  =  ft?(UN t-UN)  +  ut  (6.7.3) 


donde  nt  =  tasa  real  de  inflacion  en  el  tiempo  f 

nf  =  tasa  de  inflacion  esperada  en  el  tiempo  t,  donde  la  expectativa  se  forma  en 
el  afio  (t  —  1 ) 


( continua ) 


21  A.  W.  Phillips,  "The  Relationship  between  Unemployment  and  the  Rate  of  Change  of  Money  Wages  in  the 
United  Kingdom,  1861-1957",  Economica,  noviembre  de  1958,  vol.  25,  pp.  283-299.  Observe  que  la  curva 
original  no  cruzo  el  eje  de  la  tasa  de  desempleo,  pero  la  figura  6.8  representa  una  version  posterior  de  la 
curva. 

22  Vease  Olivier  Blanchard,  Macroeconomics,  Prentice  Hall,  Englewood  Cliffs,  Nueva  Jersey,  1997,  capftulo  1  7. 
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EJEMPLO  6.6  UNf  =  tasa  real  de  desempleo  vigente  en  el  tiempo  t 

(, continuation )  UN  =  tasa  natural  de  desempleo 

ut  =  termino  de  error  estocastico23 

Como  7tf  no  se  puede  observar  de  manera  directa,  en  primer  lugar  se  simplifica  con  la  su- 
posicion  de  que  nf  =  jrt-i ;  es  decir,  la  inflacion  esperada  este  ano  es  la  tasa  de  inflacion  que 
prevalecio  el  ano  anterior;  por  supuesto,  se  pueden  formular  suposiciones  mas  complicadas 
respecto  de  la  formacion  de  expectativas,  lo  cual  analizaremos  en  el  capftulo  1  7,  en  los  modelos 
de  retraso  distribuido. 

Al  sustituir  esta  suposicion  en  (6.7.3)  y  escribir  el  modelo  de  regresion  en  la  forma  estandar, 
obtenemos  la  siguiente  ecuacion  de  estimacion: 

.t /  —  TTf — -j  =  fa  4-  UNf  4-  Ut  (6.7.4) 

donde  fa  =  —  fal)N.  La  ecuacion  (6.7.4)  establece  que  el  cambio  en  la  tasa  de  inflacion  entre  los 
dos  periodos  esta  linealmente  relacionado  con  la  tasa  de  desempleo  real.  A  priori,  se  espera  que 
fa  sea  negativa  (ipor  que?)  y  fa  positiva  (porque  fa  es  negativa  y  UN  es  positiva). 

A  proposito,  la  relacion  de  Phillips  de  (6.7.3)  se  conoce  en  la  bibliograffa  como  la  curva 
de  Phillips  modificada,  curva  de  Phillips  de  expectativas  aumentadas  (para  indicar 
que  7i ( .i  representa  la  inflacion  esperada)  o  curva  aceleradora  de  Phillips  (para  indicar  que 
una  tasa  de  desempleo  baja  propicia  un  incremento  en  la  tasa  de  inflacion  y,  por  consiguien- 
te,  una  aceleracion  del  nivel  de  precios). 


EJEMPLO  6.7  A  manera  de  ilustracion  de  la  curva  de  Phillips  modificada,  en  la  tabla  6.5  se  presentan  datos 

sobre  la  inflacion  medida  por  el  porcentaje  anual  en  el  fndice  de  precios  al  consumidor  (IPCon 
inflacion)  y  la  tasa  de  desempleo  de  1960  a  2006.  La  tasa  de  desempleo  representa  la  tasa  de 
desempleo  civil.  Con  estos  datos  se  obtuvo  el  cambio  en  la  tasa  de  inflacion  (nt  —  7rt_i)  y  se 
grafico  respecto  de  la  tasa  de  desempleo  civil;  se  utiliza  el  IPC  como  medida  de  la  inflacion. 
La  grafica  resultante  aparece  en  la  figura  6.9. 

Como  se  esperaba,  la  relacion  entre  el  cambio  en  la  tasa  de  inflacion  y  la  tasa  de  desempleo  es 
negativa  (un  desempleo  bajo  provoca  un  incremento  en  la  tasa  de  inflacion  y,  por  consiguiente, 
una  aceleracion  del  nivel  de  precios,  de  ahf  el  nombre  de  curva  aceleradora  de  Phillips). 

Al  observar  la  figura  6.9,  no  resulta  obvio  si  un  modelo  de  regresion  lineal  (una  Ifnea  recta)  o 
un  modelo  recfproco  sea  el  que  se  ajuste  a  los  datos;  tal  vez  haya  una  relacion  curvilfnea  entre  las 
dos  variables.  Mas  adelante  se  presentan  regresiones  basadas  en  ambos  modelos.  Sin  embargo, 
hay  que  tener  presente  que  para  el  modelo  recfproco  se  espera  que  el  termino  del  intercepto  sea 
negativo  y  la  pendiente  positiva,  como  se  destaco  en  la  nota  20. 

Modelo  lineal:  =  3.7844  -  0.6385  UNt 

t=  (4.1912)  (-4.2756)  r2  =  0.2935 


Modelo  recfproco: 


(jTt-jrt-i)=  -3.0684  +  17.2077^— 

t=  (-3.1 635)  (3.2886)  r2  =  0.1973 


JN  tj 


(6.7.6) 


Todos  los  coeficientes  estimados  en  ambos  modelos  son  significativos  estadfstica  e  individual- 
mente ;  ademas,  todos  los  valores  p  son  menores  que  el  nivel  0.005. 


23  Los  economistas  creen  que  este  termino  de  error  representa  algun  tipo  de  choque  en  la  oferta,  como  los 
embargos  de  petroleo  de  la  OPEP  en  1 973  y  1 979. 
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TAB  LA  6.5 

Tasas  de  inflation  y 
desempleo,  Estados 
Unidos,  1960-2006 
(para  todos  los  con- 
sumidores  urbanos; 
1982-1984  =  100,  salvo 
si  se  indica  lo  contra- 
rio) 

Fuente:  Economic  Report  of 
the  President ,  2007,  tabla  B-60, 
p.  399,  para  los  cambios  en  el 
IPC,  y  tabla  B-42,  p.  376,  para 
la  tasa  de  desempleo. 


Ano 

TSINF 

TSDES 

Ano 

TSINF 

TSDES 

1960 

1.718 

5.5 

1984 

4.317 

7.5 

1961 

1.014 

6.7 

1985 

3.561 

7.2 

1962 

1.003 

5.5 

1986 

1.859 

7.0 

1963 

1.325 

5.7 

1987 

3.650 

6.2 

1964 

1.307 

5.2 

1988 

4.137 

5.5 

1965 

1.613 

4.5 

1989 

4.818 

5.3 

1966 

2.857 

3.8 

1990 

5.403 

5.6 

1967 

3.086 

3.8 

1991 

4.208 

6.8 

1968 

4.192 

3.6 

1992 

3.010 

7.5 

1969 

5.460 

3.5 

1993 

2.994 

6.9 

1970 

5.722 

4.9 

1994 

2.561 

6.1 

1971 

4.381 

5.9 

1995 

2.834 

5.6 

1972 

3.210 

5.6 

1996 

2.953 

5.4 

1973 

6.220 

4.9 

1997 

2.294 

4.9 

1974 

11.036 

5.6 

1998 

1.558 

4.5 

1975 

9.128 

8.5 

1999 

2.209 

4.2 

1976 

5.762 

7.7 

2000 

3.361 

4.0 

1977 

6.503 

7.1 

2001 

2.846 

4.7 

1978 

7.591 

6.1 

2002 

1.581 

5.8 

1979 

11.350 

5.8 

2003 

2.279 

6.0 

1980 

13.499 

7.1 

2004 

2.663 

5.5 

1981 

10.316 

7.6 

2005 

3.388 

5.1 

1982 

6.161 

9.7 

2006 

3.226 

4.6 

1983 

3.212 

9.6 

Nota:  La  tasa  de  inflacion  es  el  cambio  porcentual  anual  en  el  IPC.  La  tasa  de  desempleo  es  la  tasa  de  desempleo  civil. 


FIGURA  6.9 

Curva  de  Phillips  modi- 
ficada. 
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El  modelo  (6.7.5)  muestra  que  si  la  tasa  de  desempleo  baja  un  punto  porcentual,  en  pro- 
medio,  el  cambio  en  la  tasa  de  inflacion  aumenta  0.64  puntos  porcentuales,  y  viceversa.  El  mo¬ 
delo  (6.7.6)  revela  que,  aunque  la  tasa  de  desempleo  se  incrementara  de  manera  indefinida,  el 
maximo  cambio  en  la  tasa  de  inflacion  bajarfa  y  serla  de  5.07  puntos  porcentuales.  A  proposito, 
de  la  ecuacion  (6.7.5)  se  puede  calcular  la  tasa  de  desempleo  natural  subyacente,  de  la  siguiente 
forma: 


UN=  A. 
-02 


3.7844 

0.6385 


5.9270 


(6.7.7) 


Es  decir,  la  tasa  de  desempleo  natural  es  de  casi  5.93%.  Los  economistas  situan  la  tasa  natural 
entre  5  y  6%,  aunque  en  afios  recientes  la  tasa  real  de  desempleo  en  Estados  Unidos  ha  sido 
mucho  mas  baja. 
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FIGURA  6.10 

Modelo  redproco  loga- 
ritmico. 


Y 


Modelo  log  hiperbola  o  redproco  logantmico 

Concluimos  este  analisis  de  los  modelos  reclprocos  con  el  modelo  redproco  logarltmico,  que 
adopta  la  siguiente  forma: 


In  Yi=p1-k(J^+Ui  (6.7.8) 

Su  forma  se  ilustra  en  la  figura  6.10.  Como  se  muestra  ahi,  al  principio  Y  se  incrementa  con  una 
tasa  creciente  (es  decir,  la  curva  es  convexa  al  inicio)  y  luego  aumenta  con  una  tasa  decreciente 
(la  curva  se  convierte  en  concava).24  Por  consiguiente,  este  modelo  serla  apropiado  para  repre- 
sentar  una  funcion  de  produccion  de  corto  plazo.  Recuerde  que  la  microeconomla  establece  que 
si  el  trabajo  y  el  capital  son  insumos  en  una  funcion  de  produccion,  y  si  se  mantiene  constante  el 
insumo  capital  pero  se  incrementa  el  insumo  mano  de  obra,  la  relacion  entre  producto  y  mano  de 
obra  de  corto  plazo  se  parecera  a  la  figura  6.10  (vease  el  ejemplo  7.4  del  capitulo  7). 


6.8  Eleccion  de  la  forma  funcional 


En  este  capitulo  se  analizaron  las  distintas  formas  funcionales  que  un  modelo  empirico  puede 
tomar,  incluso  dentro  de  los  confines  de  los  modelos  de  regresion  lineal  en  los  parametros.  La 
eleccion  de  una  forma  funcional  particular  puede  ser  relativamente  facil  para  el  caso  de  dos 
variables,  pues  se  pueden  graficar  las  variables  y  tener  asi  una  ligera  idea  respecto  del  modelo 
adecuado.  La  eleccion  se  complica  mucho  mas  cuando  se  considera  el  modelo  de  regresion  mul¬ 
tiple  que  implica  mas  de  una  regresora,  lo  cual  veremos  al  analizar  este  tema  en  los  siguientes 


24  Con  el  calculo,  se  demuestra  que 


Pero 


1  dY 
Y~dX 


Al  sustituir,  obtenemos 


dY  Y 
dx 


que  es  la  pendiente  de  Y  respecto  de  X. 
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TAB  LA  6.6 


Modelo 

Ecuacion 

Lineal 

Y=  p^  +  PiX 

Log-lineal 

In  Y  =  p-[  +  P2  In  X 

Log-lin 

In  f  =  di  +P1X 

Lin-log 

Y=p  1  -LftlnX 

Reciproco 

Reciproco  log 

In  Y—  /ii  -  fh( 

Pendiente 


P  2 


Elasticidad 


dYX\ 
dXY ) 


Pi 


Pi  (xy 


Nota:  *  indica  que  la  elasticidad  es  variable:  depende  del  valor  tornado  por  X o  por  7,  o  por  ambas.  En  la  practica,  cuando  no  se  especi- 
fican  los  valores  dc  X  y  dc  7,  es  muy  frecuente  medir  estas  elasticidades  con  los  valores  medios  de  estas  variables,  es  decir,  X  y  Y. 


dos  capitulos.  No  se  niega  que  se  requiere  una  gran  destreza  y  experiencia  al  escoger  un  modelo 
apropiado  para  la  estimation  emplrica.  No  obstante,  se  pueden  mencionar  algunas  sugerencias. 

1.  La  teorla  (por  ejemplo,  la  curva  de  Phillips)  tal  vez  sugiera  una  forma  funcional  particular. 

2.  Es  una  buena  costumbre  calcular  la  tasa  de  cambio  (es  decir,  la  pendiente)  de  la  regresada 
respecto  de  la  regresora,  asi  como  conocer  la  elasticidad  de  la  regresada  respecto  de  la  regresora. 
Para  los  diversos  modelos  estudiados  en  este  capitulo,  en  la  tabla  6.6  se  ofrecen  las  formulas 
necesarias  para  los  coeficientes  de  la  pendiente  y  la  elasticidad  de  los  distintos  modelos.  Conocer 
estas  formulas  le  servira  para  comparer  los  diversos  modelos. 

3.  Los  coeficientes  del  modelo  escogido  deberan  satisfacer  determinadas  expectativas  a 
priori.  Por  ejemplo,  si  consideramos  la  demanda  de  automoviles  como  funcion  del  precio  y  otras 
variables,  debemos  esperar  un  coeficiente  negativo  para  la  variable  precio. 

4.  Algunas  veces,  mas  de  un  modelo  puede  ajustarse  razonablemente  bien  a  un  determinado 
conjunto  de  datos.  En  la  curva  de  Phillips  modificada,  un  modelo  lineal  y  otro  reciproco  se  ajus- 
taron  a  los  datos.  En  ambos  casos,  los  coeficientes  resultaron  adecuados  para  las  expectativas  pre- 
vias  y  fueron  estadisticamente  significativos.  Una  gran  diferencia  fue  que  el  valor  r* 1 2 3 4 5 6  del  modelo 
lineal  fue  mayor  que  el  del  modelo  reciproco.  Por  tanto,  se  puede  tener  una  ligera  preferencia  por 
el  modelo  lineal  en  comparacion  con  el  reciproco.  Pern  se  debe  asegurar  de  que,  al  comparar 
dos  valores  de  r2,  la  variable  dependiente  (o  regresada)  de  los  dos  modelos  sea  la  misma;  la(s) 
regresora(s)  pueden  tomar  cualquier forma.  En  el  siguiente  capitulo  veremos  por  que. 

5.  En  general,  no  se  debe  sobrevaluar  la  medida  de  r2  en  el  sentido  de  creer  que  mientras  mas 
alta  sea  r2  mejor  sera  el  modelo.  Como  analizaremos  en  el  siguiente  capitulo,  r2  se  incrementa 
conforme  se  anaden  mas  regresoras  al  modelo.  Lo  que  reviste  mayor  importancia  es  la  justi¬ 
fication  teorica  del  modelo  elegido,  los  signos  de  los  coeficientes  estimados  y  su  importancia 
estadistica.  Si  un  modelo  es  bueno  conforme  a  estos  criterios,  quiza  resulte  aceptable  un  modelo 
con  una  r2  menor.  Examinaremos  de  nuevo  este  importante  tema  con  mayor  profundidad  en  el 
capitulo  13. 

6.  En  algunas  situaciones  tal  vez  no  sea  facil  ponerse  de  acuerdo  sobre  una  forma  funcional 
concreta,  en  cuyo  caso  se  pueden  usar  las  llamadas  transformaciones  Box-Cox.  En  vista  de  que 
este  tema  es  muy  tecnico,  analizamos  el  procedimiento  Box-Cox  en  el  apendice  6A.5. 
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*6.9  Nota  sobre  la  naturaleza  del  termino  de  error  estocastico: 
termino  de  error  estocastico  aditivo  o  multiplicativo 


Considere  el  siguiente  modelo  de  regresion,  similar  a  (6.5.1)  pero  sin  el  termino  de  error: 


II 

(6.9.1) 

Para  fines  de  estimacion,  este  modelo  se  expresa  de  tres  formas: 

Yt  - 

(6.9.2) 

Yi  =  /hXfV' 

(6.9.3) 

Y,  =  PiX?2  +  Ui 

(6.9.4) 

Al  tomar  logaritmos  de  ambos  lados  de  estas  ecuaciones,  obtenemos 

In  Yi  =  a  +  /l 2  In  A;  +  In  u , 

(6.9.2  o) 

In  Yi  —  a  +  2  In  A,-  +  m,- 

(6.9.3o) 

In  7,  =\n(PiXf2  +  ui) 

(6.9.4o) 

donde  a  =  In  f5\. 

Los  modelos  como  (6.9.2)  son  de  regresion  intrinsecamente  lineales  (en  los  parametros),  en 
el  sentido  de  que,  mediante  una  transformacion  (log)  adecuada,  los  modelos  se  hacen  lineales 
en  los  parametros  a  y  /?2-  {Nota:  Estos  modelos  son  no  lineales  en  fJ>\.)  Pero  el  modelo  (6.9.4) 
intrinsecamente  es  no  lineal  en  los  parametros.  No  hay  una  manera  simple  de  obtener  el  log  de 
(6.9.4)  porque  In  (A  +  B)  ^  In  A  +  In  B. 

A  pesar  de  que  las  ecuaciones  (6.9.2)  y  (6.9.3)  son  modelos  de  regresion  lineal  y  se  estiman 
por  minimos  cuadrados  ordinarios  (MCO)  o  maxima  verosimilitud  (MV),  se  debe  tener  cuidado 
sobre  las  propiedades  del  termino  de  error  estocastico  considerado  en  estos  modelos.  Recuerde 
que  la  propiedad  MELI  de  MCO  (mejor  estimador  lineal  insesgado)  exige  que  el  valor  de  la 
media  de  u,  sea  cero,  y  que  tenga  varianza  constante  y  autocorrelacion  cero.  Para  la  prueba  de 
hipotesis  suponemos  ademas  que  Uj  sigue  una  distribucion  normal  con  los  valores  de  la  media  y 
la  varianza  recien  estudiados.  En  resumen,  supusimos  que  u,  ~  /V(0,  a2). 

Ahora  considere  el  modelo  (6.9.2).  Su  contraparte  estadistica  esta  dada  en  (6.9.2a).  Para  utili- 
zar  el  modelo  clasico  de  regresion  lineal  normal  (MCRLN)  debemos  suponer  que 

In  Uj  ~  N{ 0,  a2)  (6.9.5) 

Por  consiguiente,  cuando  realicemos  la  regresion  (6.9.2a),  se  tendran  que  aplicar  las  pruebas  de 
normalidad  estudiadas  en  el  capitulo  5  a  los  residuos  obtenidos  de  esta  regresion.  A  proposito, 
observe  que  si  In  w,  sigue  la  distribucion  normal  con  media  cero  y  varianza  constante,  la  teoria 
estadistica  muestra  que  m,  en  (6.9.2)  debe  seguir  la  distribucion  log-normal  con  media  ea  /2  y 
varianza  ea  {ea~  —  1). 

Como  muestra  el  analisis  anterior,  se  tiene  que  prestar  mucha  atencion  al  termino  de  error  al 
transformar  un  modelo  para  el  analisis  de  regresion.  En  cuanto  a  (6.9.4),  se  trata  de  un  modelo  de 
regresion  no  lineal  en  los  parametros,  y  debera  resolverse  mediante  algun  procedimiento  compu- 
tacional  iterativo.  La  estimacion  del  modelo  (6.9.3)  no  debe  presentar  ningun  problema. 


Opcional. 
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Resumen  y 
conclusiones 


Para  resumir,  se  debe  prestar  atencion  al  termino  de  perturbacion  cuando  se  transforme  un 
modelo  para  el  analisis  de  regresion.  De  lo  contrario,  una  aplicacion  a  ciegas  de  MCO  al  modelo 
transformado  no  producira  un  modelo  con  las  propiedades  estadlsticas  deseables. 


En  este  capltulo  se  presentaron  diversos  aspectos  detallados  del  modelo  clasico  de  regresion 

lineal  (MCRL). 

1.  Algunas  veces,  un  modelo  de  regresion  puede  no  contener  un  termino  de  intercepto  expllcito. 

Estos  modelos  se  conocen  como  regresion  a  traves  del  origen.  A  pesar  de  que  el  algebra 
requerida  en  la  estimacion  de  tales  modelos  es  simple,  se  deben  utilizar  con  cautela.  En  tales 
modelos,  la  suma  de  los  residuos  e s  diferente  de  cero;  ademas,  el  r* 1 2 3 4 5 6 7 8  calculado  conven- 

cionalmente  puede  no  tener  significado.  A  menos  que  exista  una  solida  razon  teorica,  es  mejor 
introducir  el  intercepto  expllcitamente  en  el  modelo. 

2.  Las  unidades  y  la  escala  en  que  se  expresan  la  regresada  y  la(s)  regresora(s)  son  muy  impor- 
tantes,  pues  la  interpretation  de  los  coeficientes  de  regresion  depende  de  ellas  en  gran  medida. 
En  la  investigation  empirica,  el  encargado  no  solo  debe  citar  la  fuente  de  los  datos,  sino  tam- 
bien  describir  expllcitamente  la  forma  como  se  miden  las  variables. 

3.  Es  de  igual  importancia  la  forma  funcional  de  la  relation  entre  la  regresada  y  la(s)  regresora(s). 
Algunas  formas  funcionales  importantes  estudiadas  en  este  capitulo  son  a)  el  modelo  log-li¬ 
neal  o  de  elasticidad  constante,  b)  los  modelos  de  regresion  semilogaritmicos  y  c)  los  modelos 
reciprocos. 

4.  En  el  modelo  log-lineal,  la  regresada  y  la(s)  regresora(s)  se  expresan  en  forma  logaritmica.  El 
coeficiente  de  regresion  asociado  al  log  de  una  regresora  se  interpreta  como  la  elasticidad  de 
la  regresada  respecto  de  la  regresora. 

5.  En  el  modelo  semilog,  la  regresada  o  la(s)  regresora(s)  estan  en  la  forma  de  log.  En  el  mo¬ 
delo  semilogaritmico,  en  el  cual  la  regresada  es  logaritmica  y  la  regresora  X  es  tiempo,  el 
coeficiente  de  la  pendiente  estimado  (multiplicado  por  100)  mide  la  tasa  de  crecimiento  (ins- 
tantanea)  de  la  regresada.  Tales  modelos  son  comunes  para  medir  la  tasa  de  crecimiento  de 
muchos  fenomenos  economicos.  En  el  modelo  semilogaritmico,  si  la  regresora  es  logaritmica, 
su  coeficiente  mide  la  tasa  de  cambio  absoluta  en  la  regresada  por  un  cambio  porcentual  dado 
en  el  valor  de  la  regresora. 

6.  En  los  modelos  reciprocos,  la  regresada  o  la  regresora  se  expresa  en  forma  reciproca  o  inversa 
para  denotar  relaciones  no  lineales  entre  variables  economicas,  como  en  la  conocida  curva  de 
Phillips. 

7.  Al  seleccionar  las  diversas  formas  funcionales,  debe  prestarse  gran  atencion  al  termino  de 
perturbacion  estocastica  u,.  Como  vimos  en  el  capitulo  5,  el  MCRL  supone  expllcitamente  que 
el  valor  de  la  media  del  termino  de  perturbacion  es  cero  y  su  varianza  es  constante  (homosce- 
dastica),  y  que  no  esta  correlacionado  con  la(s)  regresora(s).  Con  estos  supuestos,  los  estima- 
dores  de  MCO  son  MELI.  Ademas,  segun  el  MCRLN,  los  estimadores  de  MCO  estan  tambien 
normalmente  distribuidos.  Por  consiguiente,  se  debe  verificar  si  estos  supuestos  se  mantienen 
en  la  forma  funcional  escogida  para  el  analisis  empirico.  Despues  de  realizar  la  regresion,  el 
investigador  debe  aplicar  pruebas  de  diagnostico,  como  la  de  normalidad,  estudiada  en  el  ca¬ 
pitulo  5.  Nunca  sobra  insistir  en  este  punto,  pues  las  pruebas  de  hipotesis  clasicas,  como  la  t, 
F  y  x2,  dependen  del  supuesto  de  que  las  perturbaciones  estan  normalmente  distribuidas.  Esto 
es  en  especial  importante  si  la  muestra  es  pequena. 

8.  Si  bien  el  analisis  hasta  ahora  se  ha  limitado  a  modelos  de  regresion  con  dos  variables,  los 
siguientes  capitulos  mostraran  que,  en  muchos  casos,  la  extension  a  modelos  de  regresion 
multiple  solo  implica  mas  algebra  sin  introducir  necesariamente  mas  conceptos  fundamen- 
tales.  Por  esta  razon,  es  muy  importante  que  el  lector  tenga  un  concepto  claro  del  modelo  de 
regresion  de  dos  variables. 
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EJERCICIOS  Preguntas 


6.1.  Considere  el  modelo  de  regresion 

yi  —  Pi  +  PlXi  +  Ui 

donde  y,  —  (Y,  —  Y)  y  x,  —  (X,  —  X).  En  este  caso,  la  linea  de  regresion  debe  pasar  a 
traves  del  origen.  /.C'icrto  o  falso?  Muestre  sus  calculos. 

6.2.  Con  base  en  datos  mensuales  de  enero  de  1978  a  diciembre  de  1987  se  obtuvieron  los 
siguientes  resultados  de  regresion: 


Y,  =  0.00681  +  0.75815X, 

ee  =  (0.02596)  (0.27009) 

/=  (0.26229)  (2.80700) 


valor  p  —  (0.7984)  (0.0186)  r2  =  0.4406 

%  =  0.762 14X, 
ee  =  (0.265799) 
t=  (2.95408) 


r 2  =  0.43684 


valor  p  —  (0.0131) 


donde  Y  —  tasa  mensual  de  rendimiento  de  las  acciones  comunes  de  Texaco,  %,  y  X—  tasa 

mensual  de  rendimiento  del  mercado,  %.* 

a)  ^,Cual  es  la  diferencia  entre  los  dos  modelos  de  regresion? 

b)  Con  los  resultados  anteriores,  /.conscrvana  el  termino  del  intercepto  en  el  primer  mo¬ 
delo?  (',Por  que? 

c)  ^Como  interpretaria  los  coeficientes  de  la  pendiente  en  los  dos  modelos? 

d)  ^,Cual  es  la  teoria  en  los  dos  modelos? 

e)  (',Pucdc  comparar  los  terminos  r2  de  los  dos  modelos?  (',Por  que? 

/)  El  estadistico  de  normalidad  de  Jarque-Bera  para  el  primer  modelo  en  este  problema  es 
1.1167  y  para  el  segundo  modelo  es  1.1 170.  ,iQue  conclusiones  puede  obtener  de  estos 
estadisticos? 

g)  El  valor  t  del  coeficiente  de  la  pendiente  en  el  modelo  con  intercepto  cero  es  aproxi- 
madamente  2.95,  mientras  que  con  el  intercepto  presente  tiene  un  valor  aproximado  de 
2.81.  (',Pucde  explicar  este  resultado? 

6.3.  Considere  el  siguiente  modelo  de  regresion: 


Nota:  Ni  X ni  Y asumen  el  valor  cero. 

a)  (;Es  un  modelo  de  regresion  lineal? 

b )  (',C6mo  estimaria  este  modelo? 

c)  (',Cual  es  el  comportamiento  de  Y  a  medida  que  X  tiende  a  infinite? 

d )  (',Pucdc  dar  un  ejemplo  de  un  caso  en  el  cual  sea  adecuado  un  modelo  de  esta  clase? 


*  Los  datos  originales  se  obtuvieron  del  disquete  de  datos  de  Ernst  R.  Berndt,  The  Practice  of  Econometrics: 
Classic  and  Contemporary,  Addison-Wesley,  Reading,  Massachusetts,  1991. 
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6.4.  Considere  el  modelo  log-lineal: 

In  Yj  —  i Si  +  f$2  In  Xj  +  Uj 

Grafique  Fen  el  eje  vertical  yXen  el  horizontal.  Trace  las  curvas  que  exhiben  la  relacion 
entre  7y  X cuando  /S2  —  1,  cuando  /S2  >  1  y  cuando  1 . 

6.5.  Considere  los  siguientes  modelos: 

Modelo  I:  Yl  —  fi\  +  faX,  +  u, 

Modelo  II:  Y*  =  oq  +  a2X*  +  u, 

donde  Y*  y  X*  son  variables  estandarizadas.  Demuestre  que  a2  —  P2 (Sx/Sy)  y,  de  alb,  es- 
tablezca  que,  a pesar  de  que  los  coeficientes  de pendiente  son  independientes  de  un  cambio 
de  origen,  no  lo  son  de  un  cambio  de  escala. 

6.6.  Considere  los  siguientes  modelos: 

In  Y*  —  a\  +  a2  In  X*  +  u* 

In  Yj  —  +  f$2  In  Xj  +  Uj 

donde  Y*  =  w  1  Yj  y  X*  —  W2Xj,  con  las  w  constantes. 

a)  Establezca  las  relaciones  entre  los  dos  conjuntos  de  coeficientes  de  regresion  y  sus 
errores  estandar. 

b)  /.Es  diferente  el  r2  en  los  dos  modelos? 

6.7.  Entre  las  regresiones  (6.6.8)  y  (6.6. 10),  ^que  modelo  es  preferible?  /,Por  que? 

6.8.  Para  la  regresion  (6.6.8),  pruebe  la  hipotesis  de  que  el  coeficiente  de  la  pendiente  no  es 
significativamente  diferente  de  0.005. 

6.9.  De  la  curva  de  Phillips  estimada  dada  en  (6.7.3),  ,',es  posible  estimar  la  tasa  natural  de 
desempleo?  /.Como? 

6.10.  La  curva  de  gasto  de  Engel  relaciona  el  gasto  del  consumidor  sobre  un  bien  con  su  ingreso 
total.  Sea  Y  —  el  gasto  de  consumo  sobre  un  bien  y  X  =  ingreso  del  consumidor,  y  consi¬ 
dere  los  siguientes  modelos: 

Yj  —  P\  +  P2  X,  +  Uj 
Yj  =  Pi  +  m/Xj)  +  iri 
In  Yj  —  ln/h  +  yS2  In  X,  +  u, 

In  F  =  In  f)\  +p2(]/Xl)  +  ul 
Yj  —  +  P2  In  Xj  +  Uj 

(',Cual(es)  de  estos  modelo(s)  escogeria  para  la  curva  de  gasto  de  Engel  y  por  que?  ( Suge - 
rencia:  Interprete  los  diversos  coeficientes  de  pendiente,  encuentre  las  expresiones  para  la 
elasticidad  del  gasto  respecto  del  ingreso,  etcetera.) 

6.11.  Considere  el  siguiente  modelo: 


eP  i+fhX, 

1  gPl+kXi 


Tal  como  se  presenta,  /.es  un  modelo  de  regresion  lineal?  Si  no  es  asi,  /.quc  “truco”  podria 
utilizar,  si  acaso,  para  convertirlo  en  un  modelo  de  regresion  lineal?  /.Como  interpretaria  el 
modelo  resultante?  /.En  que  circunstancias  seria  adecuado  dicho  modelo? 
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6.12.  Grafique  los  siguientes  modelos  (para  mayor  sencillez,  se  omitieron  los  subindices  de  ob¬ 
servation,  i): 

a)  Y  —  para  y32  >  1,  ft  =  1>  0  <  <  1, .  .  . 

b)  Y  —  P\e^x,  para  /32  >  0  y  /L  <  0. 

Analice  donde  serian  adecuados  estos  modelos. 

6.13  Considere  la  siguiente  regresion:* 


ISP,-  =  —17.8  +  33.2  Gini , 
ee  =  (4.9)  (11.8)  r2=0.16 


donde  ISP  =  indice  de  inestabilidad  sociopolitica,  promedio  para  1960-1985,  y  Gini  = 
coeficiente  de  Gini  para  1975,  o  el  ano  mas  proximo  disponible  dentro  del  periodo  1970- 
1980.  La  muestra  consta  de  40  paises. 

El  coeficiente  de  Gini  es  una  medida  de  la  desigualdad  del  ingreso  y  se  situa  entre  0  y 
1 .  Cuanto  mas  cerca  se  encuentre  de  0,  mayor  sera  la  igualdad  del  ingreso,  y  cuanto  mas 
proximo  se  encuentra  de  1,  mayor  sera  la  desigualdad  del  ingreso. 

a)  /Como  interpreta  esta  regresion? 

b)  Suponga  que  el  coeficiente  de  Gini  se  incrementa  de  0.25  a  0.55.  ^.Cuanto  aumentaria 
el  ISP?  pQue  significa  eso  en  la  practica? 

c)  (/El  coeficiente  estimado  de  la  pendiente  es  estadisticamente  significativo  al  nivel  de 
5%?  Realice  los  calculos  necesarios. 

d )  Con  base  en  la  regresion  anterior,  pdiria  que  los  paises  con  mayor  desigualdad  del  in¬ 
greso  son  politicamente  inestables? 

Ejercicios  empfricos 

6.14.  Con  los  datos  de  la  tabla  6.7,**  ajuste  el  siguiente  modelo  a  dichos  datos,  obtenga  las  es- 
tadisticas  usuales  de  regresion  e  interprete  los  resultados: 


TABLA  6.7 


Yj  86  79  76  69  65  62  52  51  51  48 

X;  3  7  12  17  25  35  45  55  70  120 


6.15.  Para  estudiar  la  relacion  entre  tasa  de  inversion  (el  gasto  en  inversion  como  razon  del  PNB) 
y  la  tasa  de  ahorro  (el  ahorro  como  razon  del  PNB),  Martin  Feldstein  y  Charles  Horioka 
recopilaron  datos  para  una  muestra  de  21  paises.  (Vease  la  tabla  6.8.)  La  tasa  de  inversion 
de  cada  pais  es  la  tasa  promedio  correspondiente  al  periodo  1960-1974,  y  la  tasa  de  ahorro 
es  la  tasa  de  ahorro  promedio  para  el  periodo  1960-1974.  La  variable  TASINV  representa 
la  tasa  de  inversion,  y  la  variable  TASAHO,  la  tasa  de  ahorro.^ 

a)  Grafique  la  tasa  de  inversion  contra  la  tasa  de  ahorro. 

b)  Con  base  en  esta  grafica,  pconsidera  que  los  siguientes  modelos  puedan  ajustarse  a  los 


datos  igualmente  bien? 


Tasinv,-  =  +  /^Tasaho,  +  m 

In  Tasinv,  =  u\  +  ai  In  Tasaho,-  +  tq 


c)  Estime  estos  dos  modelos  y  obtenga  las  estadisticas  habituales. 


*  Vease  David  N.  Weil,  Economic  Growth,  Addison-Wesley,  Boston,  2005,  p.  392. 

**  Adaptado  de  J.  Johnston,  Econometric  Methods,  3a.  ed.,  McGraw-Hill,  Nueva  York,  1 984,  p.  87.  En  reali¬ 
dad,  esta  informacion  se  tomo  de  un  examen  de  econometna  de  la  Universidad  de  Oxford,  1975. 
t  Martin  Feldstein  y  Charles  Horioka,  "Domestic  Saving  and  International  Capital  Flows",  Economic  Journa\, 
vol.  90,  junio  de  1980,  pp.  314-329.  Datos  reproducidos  de  Michael  P.  Murray,  Econometrics:  A  Modern  In¬ 
troduction,  Addison-Wesley,  Boston,  2006. 
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TABLA  6.8 


TASAHO 

TASINV 

Alemania 

0.271 

0.264 

Australia 

0.250 

0.270 

Austria 

0.285 

0.282 

Belgica 

0.235 

0.224 

Canada 

0.219 

0.231 

Dinamarca 

0.202 

0.224 

Espana 

0.235 

0.241 

Estados  Unidos 

0.186 

0.186 

Finlandia 

0.288 

0.305 

Francia 

0.254 

0.260 

Grecia 

0.219 

0.248 

Irlanda 

0.190 

0.218 

Italia 

0.235 

0.224 

Japon 

0.372 

0.368 

Luxemburgo 

0.313 

0.277 

Noruega 

0.278 

0.299 

Nueva  Zelanda 

0.232 

0.249 

Palses  Bajos 

0.273 

0.266 

Reino  Unido 

0.184 

0.192 

Suecia 

0.241 

0.242 

Suiza 

0.297 

0.297 

Nota:  TASAHO  =  Ahorro  como  razon  del  P1B. 
TASINV  =  Gasto  en  inversion  como  razon  del  P1B. 


d )  (.Como  interpretaria  el  coeficiente  de  la  pendiente  en  el  modelo  lineal?  i Y  en  el  modelo 
log-lineal?  (',Hay  alguna  diferencia  en  la  interpretacion  de  estos  coeficientes? 

e)  (.Como  interpretaria  los  interceptos  de  los  dos  modelos?  ^Hay  alguna  diferencia  en  la 
interpretacion? 

/)  ('.Compararia  los  dos  coeficientes  r2‘!  pPor  que? 

g)  Suponga  que  desea  calcular  la  elasticidad  de  la  tasa  de  inversion  respecto  de  la  tasa  de 
ahorro.  pComo  obtendrla  esta  elasticidad  para  el  modelo  lineal?  pY  para  el  modelo  log- 
lineal?  Tenga  en  cuenta  que  esta  elasticidad  se  define  como  el  cambio  porcentual  de  la 
tasa  de  inversion  correspondiente  a  un  cambio  porcentual  en  la  tasa  de  ahorro. 

/?)  Con  los  resultados  de  los  dos  modelos  de  regresion,  pquc  modelo  preferiria?  pPor  que? 

6.16.  La  tabla  6.9*  presenta  las  definiciones  de  las  variables  para  diversos  tipos  de  gastos,  gasto 
total,  ingreso,  edad  del  jefe  de  la  familia  y  numero  de  hijos  para  una  muestra  de  1  519 
familias,  que  se  obtuvo  de  los  Estudios  Economicos  de  Gasto  de  las  Familias  Britanicas 
1980-1982. 

El  conjunto  original  de  datos  se  encuentra  en  la  pagina  de  internet  de  este  texto.  Los  datos 
incluyen  solo  a  familias  con  uno  o  dos  hijos  que  viven  en  la  zona  metropolitana  de  Lon- 
dres.  La  muestra  no  incluye  a  familias  de  personas  que  trabajan  por  su  cuenta  ojubiladas. 

a)  Con  los  datos  sobre  el  gasto  alimentario  en  relacion  con  el  gasto  total,  determine  que 
modelos  de  los  que  se  resumieron  en  la  tabla  6.6  se  ajustan  a  estos  datos. 

b )  Con  base  en  los  resultados  de  regresion  obtenidos  en  a),  pque  modelo  parece  el  mas 
apropiado  en  el  presente  caso? 

Nota:  Guarde  estos  datos  para  analisis  posterior  en  el  siguiente  capitulo  sobre  regresion 
multiple. 


*  Los  datos  son  de  Richard  Blundell  y  Krishna  Pendakur,  "Semiparametric  Estimation  and  Customer  de¬ 
mand",  journal  of  Applied  Econometrics,  vol.  1  3,  num.  5,  1 998,  pp.  435-462.  Los  datos  se  reproducen  de  R. 
Carter  Hill,  William  E.  Griffiths  y  George  G.  Judge,  Undergraduate  Econometrics,  2a.  ed.,  John  Wiley  &  Sons, 
Nueva  York,  2001 . 
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TAB  LA  6.9 


Lista  de  variables: 


wfood  = 
wfuel  = 
wcloth  = 
wale  = 
wtrans  = 
wother  = 

totexp  = 

income  = 

age  = 
nk  = 

La  participacion 
define  como: 


participacion  del  presupuesto  destinado  al  gasto  en  alimentos 
participacion  del  presupuesto  destinado  al  gasto  en  combustibles 
participacion  del  presupuesto  destinado  al  gasto  en  ropa 
participacion  del  presupuesto  destinado  al  gasto  en  bebidas  alcoholicas 
participacion  del  presupuesto  destinado  al  gasto  en  transporte 
participacion  del  presupuesto  destinado  a  otros  gastos 

gasto  total  familiar 

(redondeado  a  las  10  libras  esterlinas  mas  proximas) 
ingreso  total  neto  familiar 

(redondeado  a  las  10  libras  esterlinas  mas  proximas) 
edad  del  jefe  de  la  familia 
numero  de  hijos 

del  presupuesto  destinado  a  un  concepto,  por  ejemplo,  alimentos,  se 

,  ,  qasto  en  alimentos 

wfood  =  - - 

gasto  total 


6.17.  Remitase  a  la  tabla  6.3.  Determine  la  tasa  de  crecimiento  del  gasto  en  bienes  duraderos. 
/,Cual  es  la  semielasticidad  estimada?  Interprete  sus  resultados.  /.Tendria  sentido  hacer  una 
regresion  doble  logarltmica  con  el  gasto  en  bienes  duraderos  como  la  variable  dependiente 
(regresada)  y  el  tiempo  como  la  regresora?  /.Como  interpretarla  la  pendiente  del  coefi- 
ciente  en  este  caso? 

6.18.  A  partir  de  los  datos  de  la  tabla  6.3,  calcule  la  tasa  de  crecimiento  del  gasto  en  bienes  pe- 
recederos  y  compare  los  resultados  con  los  obtenidos  en  el  ejercicio  6.17. 

6.19.  La  tabla  6.10  presenta  datos  sobre  el  gasto  de  consumo  total  en  el  Reino  Unido  (en  millo- 
nes  de  £)  y  el  gasto  en  publicidad  (en  millones  de  £)  correspondientes  a  29  categorlas  de 
producto.* 

a)  Considerando  las  diferentes  formas  funcionales  que  analizamos  en  el  capitulo,  /,que 
forma  funcional  puede  ajustarse  a  los  datos  de  la  tabla  6.10? 

b )  Estime  los  parametros  del  modelo  de  regresion  seleccionado  e  interprete  sus  resulta¬ 
dos. 

c)  Si  toma  la  razon  entre  el  gasto  en  publicidad  y  el  gasto  de  consumo  total,  /,que  observa? 
/Hay  alguna  categoria  de  producto  en  la  que  esta  razon  parezea  extraordinariamente 
alta?  /Estas  categorias  de  producto  tienen  algo  especial  que  explique  el  gasto  relativa- 
mente  alto  en  publicidad? 

6.20.  Remitase  al  ejemplo  3.3  del  capitulo  3  para  realizar  lo  siguiente: 

a )  Grafique  la  demanda  de  telefonos  celulares  contra  el  ingreso  per  capita  ajustado  por  el 
poder  adquisitivo  (PA). 

b )  Grafique  la  demanda  de  telefonos  celulares  contra  el  log  del  ingreso  per  capita  ajustado 
por  el  poder  adquisitivo  (PA). 

c)  /Que  diferencia  hay  entre  las  dos  graficas? 

d)  Con  base  en  estas  dos  graficas,  /cree  que  un  modelo  doble  logaritmo  puede  ofrecer  un 
mejor  ajuste  a  los  datos  que  el  modelo  lineal?  Estime  el  modelo  doble-log. 

e)  ('.Como  interpreta  el  coeficiente  de  la  pendiente  en  el  modelo  doble-log? 

/)  /El  coeficiente  estimado  de  la  pendiente  en  el  modelo  doble-log  es  estadisticamente 
significativo  en  el  nivel  de  5%? 


*  Estos  datos  se  tomaron  del  Advertising  Statistics  Year  Book,  1 996,  y  se  reproducer!  de  http://www.Econo- 
micswebinstitute.org/ecdata.htm. 
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Obs 

GASPUB 

GASCON 

RAZON 

Gasto  en  publicidad  y 
gasto  de  consumo  total 

i 

87  957.00 

13  599.00 

0.006468 

(en  millones  de  £)  en  29 

2 

23  578.00 

4  699.000 

0.005018 

categorias  de  produetos 

3 

16  345.00 

5  473.000 

0.002986 

en  el  Reino  Unido 

4 

6  550.000 

6  119.000 

0.001070 

5 

10  230.00 

8  811.000 

0.001161 

Fuente:  http://www. 

6 

9  127.000 

1  142.000 

0.007992 

Economicswebinstitute .  org/ 
ecdata.htm. 

7 

1  675.000 

143.0000 

0.011713 

8 

1  110.000 

138.0000 

0.008043 

9 

3  351.000 

85.00000 

0.039424 

10 

1  140.000 

108.0000 

0.010556 

11 

6  376.000 

307.0000 

0.020769 

12 

4  500.000 

1  545.000 

0.002913 

13 

1  899.000 

943.0000 

0.002014 

14 

10  101.00 

369.0000 

0.027374 

15 

3  831.000 

285.0000 

0.013442 

16 

99  528.00 

1  052.000 

0.094608 

17 

15  855.00 

862.0000 

0.018393 

18 

8  827.000 

84.00000 

0.105083 

19 

54  517.00 

1  174.000 

0.046437 

20 

49  593.00 

2  531.000 

0.019594 

21 

39  664.00 

408.0000 

0.097216 

22 

327.0000 

295.0000 

0.001108 

23 

22  549.00 

488.0000 

0.046207 

24 

416  422.0 

19  200.00 

0.021689 

25 

14  212.00 

94.00000 

0.151191 

26 

54  1  74.00 

5  320.000 

0.010183 

27 

20  218.00 

357.0000 

0.056633 

28 

1 1  041 .00 

159.0000 

0.069440 

29 

22  542.00 

244.0000 

0.092385 

Notas:  GASPUB  =  gasto  en  publicidad  (en  millones  de  £). 
GASCON  =  Gasto  de  consumo  total  (en  millones  de  £). 


g)  Como  estimaria  la  elasticidad  de  la  demanda  de  telefonos  celulares  respecto  del  ingreso 
ajustado  por  el  poder  adquisitivo  para  el  modelo  lineal  de  la  ecuacion  (3.7.3)?  ^Que 
information  adicional,  si  acaso,  se  necesita?  Llame  elasticidad  ingreso  a  la  elasticidad 
estimada. 

/?)  ^Hay  alguna  diferencia  entre  la  elasticidad  ingreso  estimada  con  base  en  el  modelo 
doble-log  y  la  que  se  estimo  con  el  modelo  lineal?  De  ser  asl,  (;quc  modelo  elegiria? 

6.21.  Repita  el  ejercicio  6.20,  pero  remitase  a  la  demanda  de  computadoras  personales  presen- 
tada  en  la  ecuacion  (3.7.4).  <,Hay  alguna  diferencia  entre  la  elasticidad  ingreso  estimada 
de  los  telefonos  celulares  y  la  de  las  computadoras  personales?  De  ser  asi,  ^que  factores 
pueden  explicar  la  diferencia? 

6.22.  Consulte  los  datos  de  la  tabla  3.3.  Para  averiguar  si  las  personas  con  computadoras  perso¬ 
nales  tienen  tambien  telefonos  celulares,  ejecute  la  siguiente  regresion: 

Telcelular,-  =  fi\  +  fiiPCs ,  +  z/,- 

a)  Estime  los  parametros  de  esta  regresion. 

b)  /,E1  coeficiente  estimado  de  la  pendiente  es  estadisticamente  significativo? 

c)  qlmporta  si  se  ejecuta  la  siguiente  regresion? 

PCs/  =  at  +  a2Telcelular,  +  z<; 

d)  Estime  la  regresion  anterior  y  pruebe  la  significance  estadistica  del  coeficiente  esti¬ 
mado  de  la  pendiente. 

e)  ;Como  decidiria  entre  la  primera  y  la  segunda  regresion? 
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Apendice  6 A 


6A.1  Derivacion  de  los  estimadores  de  rmnimos 

cuadrados  para  ia  regresion  a  traves  del  origen 


Deseamos  reducir 


=  D7' -  ^x')2 


respecto  de  ft. 

A1  diferenciar  (1)  respecto  de  ft,  obtenemos 


dp  2 


=  2  YjJi  ~  hXi){-Xi) 


A1  igualar  (2)  a  cero  y  simplificar,  obtenemos 


ft  = 


EAT, 


EA? 

Ahora  sustituimos  la  FRP:  Yj  =  ftA,  +  en  esta  ecuacion,  y  obtenemos 

E  ft(ftft  +  ui) 


ft  = 


—  ft  + 


E4 

Eft«; 

EA? 


[Nota:  is(ft)  =  ft.]  Por  consiguiente, 


ftft  -  ft)2  =  E 


E  Am, 

EA2 


(1) 


(2) 


(6.1.6)  =  (3) 


(4) 


(5) 


A1  expandir  el  lado  derecho  de  (5)  y  observar  que  las  Xt  son  no  estocasticas  y  las  ut  son  homoscedasticas  y 
no  correlacionadas,  tenemos 

var(ft)  =  £(ft  -  ft)2  =  "  (6.1.7)  =  (6) 

2^xi 

A  proposito,  observe  que  a  partir  de  (2)  obtenemos,  despues  de  igualarla  a  cero, 

2>‘A=0  (7) 


Del  apendice  3  A,  seccion  3A.1,  vemos  que,  cuando  el  termino  del  intercepto  esta  presente  en  el  modelo, 
obtenemos,  ademas  de  (7),  la  condicion  E  =  0-  Del  desarrollo  matematico  anterior  debe  quedar  clara  la 
razon  por  la  cual  la  regresion  a  traves  del  origen  puede  no  tener  la  suma  de  errores,  E  igual  a  cero. 
Suponga  que  deseamos  imponer  la  condicion  E  =  0-  En  ese  caso,  tenemos 


£>=ft 


=  ft  ^2  A,  pues  ^2  u i  =  0  por  construccion 


Esta  expresion  entonces  da 


ft 


En 

EA 

Y_  _  valor  de  la  media  de  Y 
X  valor  de  la  media  de  X 


(8) 


(9) 


Pero  este  estimador  no  es  el  mismo  que  el  definido  antes  en  (3)  o  en  (6. 1 .6).  Y  como  el  ft  de  (3)  es  insesgado 
(<qtor  que?),  el  ft  de  (9)  no  puede  serlo. 

El  punto  clave  es  que,  en  la  regresion  a  traves  del  origen,  no  es  posible  igualar  Y]  A  y  E  ft  a  cero, 
como  en  el  modelo  convencional.  La  unica  condicion  que  se  satisface  es  que  E  ft  ft  es  cero. 
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Recuerde  que 


Y,  =  Yi+  Ui 


(2.6.3) 


A1  sumar  esta  ecuacion  en  ambos  lados  y  dividir  entre  N  el  tamano  de  la  muestra,  obtenemos 

Y  =  Y  +  Q 


(10) 


Como  para  el  modelo  de  intercepto  cero  J2  *6'  Y>  Por  consiguiente  u,  no  necesariamente  es  cero,  se  cumple 
que 


(11) 


Y  #  Y 


es  decir,  la  media  de  los  valores  observados  de  Y no  necesita  ser  igual  a  la  media  de  los  valores  estimados  de 


Y;  los  dos  valores  de  las  medias  son  identicos  en  el  modelo  con  intercepto,  como  se  ve  en  (3.1.10). 

Se  observo  que,  para  el  modelo  de  intercepto  cero,  el  r2  puede  ser  negativo,  mientras  que  para  el  modelo 
convencional,  nunca  puede  ser  negativo.  Esta  condicion  se  demuestra  de  la  siguiente  manera: 

Con  (3.5.5a),  escribimos 


Ahora,  para  el  modelo  convencional,  o  con  presencia  de  intercepto,  la  ecuacion  (3.3.6)  muestra  que 


(13) 


a  menos  que  fk  sea  cero  (es  decir,  X no  ejerce  influencia  alguna  sobre  Y).  Dicho  de  otro  modo,  para  el  mo¬ 
delo  convencional,  SCR  <  SCT,  y  asi,  el  r2  nunca  podra  ser  negativo. 


De  la  misma  forma,  para  el  modelo  de  intercepto  cero,  se  demuestra  que 


( Nota :  Las  sumas  de  los  cuadrados  de  Y y  Jno  estan  ajustadas  por  la  media.)  Ahora,  no  existe  garantia  de 
que  esta  SCR  sea  siempre  menor  que  ^y2  =  J2Y2  —  NY2  (la  SCT),  lo  cual  indica  que  la  SCR  puede  ser 
mayor  que  la  SCT,  y  esto  implica  que  el  r2,  como  se  definio  convencionalmente,  puede  ser  negativo.  A  pro- 


posito,  observe  que,  en  este  caso,  la  SCR  sera  mayor  que  la  SCT  si  ^\^X2  <  NY2. 


6A.2  Prueba  de  que  la  variable  estandarizada  tiene 
media  cero  y  varianza  unitaria 


Considere  la  variable  aleatoria  (v.a.)  Y  con  valor  medio  (muestral)  Y  y  desviacion  estandar  (muestral)  de 
Sy.  Defina 


Por  tanto,  Y*  es  una  variable  estandarizada.  Observe  que  la  estandarizacion  implica  una  operacion  dual:  1) 
el  cambio  del  origen,  que  es  el  numerador  de  (15),  y  2)  la  variacion  de  escala,  que  es  el  denominador.  En 
consecuencia,  la  estandarizacion  implica  una  modificacion  en  el  origen  y  en  la  escala. 


Ahora, 


(16) 


pues  la  suma  de  la  desviacion  de  una  variable  respecto  del  valor  de  su  media  siempre  es  cero.  Asi,  el  valor 
de  la  media  del  valor  estandarizado  es  cero.  {Nota:  Podemos  sacar  el  termino  Sy  del  signo  de  la  sumatoria 
porque  su  valor  es  conocido.) 


Ahora, 


(17) 
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Observe  que 

 UYi  -  ?)2 


lo  cual  es  la  varianza  muestral  de  Y. 

6A.3  Logaritmos 


Considere  los  numeros  5  y  25.  Sabemos  que 

25  =  52  (18) 

Decimos  que  el  exponente  2  es  el  logaritmo  de  25  con  base  5.  En  terminos  mas  formales,  el  logaritmo  de 
un  numero  (por  ejemplo,  25)  con  una  base  determinada  (por  ejemplo,  5)  es  la  potencia  (2)  a  la  que  debe 
elevarse  la  base  (5)  para  obtener  el  numero  dado  (25). 

De  manera  mas  general,  si 

Y=bx(b>  0)  (19) 

entonces 

log  bY  =  X  (20) 

En  matematicas,  la  funcion  ( 1 9)  se  llama  funcion  exponential,  y  la  funcion  (20),  funcion  logaritmica.  Como 
queda  claro  por  las  ecuaciones  (19)  y  (20),  una  funcion  es  el  inverso  de  la  otra. 

Aunque  se  puede  usar  cualquier  base  (positiva),  en  la  practica  las  dos  bases  mas  comunes  son  10  y  el 
numero  matematico  e  =  2.71828  .  .  . 

Los  logaritmos  base  10  se  llaman  logaritmos  comunes.  Asl, 

logio  100  =  2  logio30  ~  1.48 

Es  decir,  en  el  primer  caso,  100  =  102,  y  en  el  segundo,  30  «  10L48. 

Los  logaritmos  base  e  se  llaman  logaritmos  naturales.  Por  tanto, 

logc100  ~  4.6051  y  logc30  ~  3.4012 

Todos  estos  calculos  suelen  realizarse  con  una  calculadora  de  mano. 

Por  convencion,  el  logaritmo  base  10  se  denota  por  medio  de  las  letras  log,  y  el  logaritmo  base  e,  por  In. 
Asl,  en  el  ejemplo  anterior,  se  puede  escribir  log  100  o  log  30,  o  In  100  o  In  30. 

Existe  una  relation  fija  entre  el  log  comun  y  el  log  natural,  que  es 

In  A  =  2.3026  log  X  (21) 

Es  decir,  el  logaritmo  natural  del  numero  A es  igual  a  2.3026  veces  el  logaritmo  de  Abase  10.  Por  consi- 
guiente, 

In  30  =  2.3026  log  30  =  2.3026  (1.48)  =  3.4012  (aprox.) 

como  antes.  Por  tanto,  no  importa  si  se  usan  logaritmos  comunes  o  naturales.  Sin  embargo,  en  matematicas, 
la  base  que  casi  siempre  se  prefiere  es  e,  es  decir,  el  logaritmo  natural.  En  consecuencia,  en  este  libro  todos 
los  logaritmos  son  naturales,  a  menos  que  expresamente  se  indique  lo  contrario.  Por  supuesto,  se  puede 
convertir  el  logaritmo  de  un  numero  de  una  base  a  la  otra  con  la  ecuacion  (21). 

Tenga  presente  que  los  logaritmos  de  los  numeros  negativos  no  estan  definidos.  Por  tanto,  el  logaritmo 
de  (—5)  o  el  In  (—5)  no  esta  definido. 

Algunas  propiedades  de  los  logaritmos  son  las  siguientes:  si  A  y  B  son  numeros  positivos,  se  demuestra 
que: 

1.  In  (A  x  B)  =  In  A  +  In  B  (22) 

Es  decir,  el  logaritmo  del  producto  de  dos  numeros  (positivos)  Ay  B  es  igual  a  la  suma  de  sus  logarit¬ 
mos. 


2. 


In  (A/B)  =  In  4  -  In  B 


(23) 
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Es  decir,  el  logaritmo  de  la  razon  de  A  a  B  es  la  diferencia  entre  los  logaritmos  de  A  y  B. 

3.  ln(A  ±  B)  +  In  A  ±  In  B  (24) 

Es  decir,  el  logaritmo  de  la  suma  o  diferencia  de  A  y  B  no  es  igual  a  la  suma  o  diferencia  de  sus  loga¬ 
ritmos. 

4.  In  (Ah)  =  k\nA  (25) 

Es  decir,  el  logaritmo  de  A  elevado  a  la  potencia  k  es  k  veces  el  logaritmo  de  A. 

5.  In  e  =  1  (26) 

Esto  es,  el  logaritmo  de  e  base  e  es  1  (lo  mismo  que  el  log  de  10  base  10). 

6.  In  1  =  0  (27) 

Es  decir,  el  logaritmo  natural  del  numero  1  es  cero  (al  igual  que  el  logaritmo  comun  del  numero  1). 

7.  Si  F  =  In  X, 


dY  _  1 
dX  ~  X 


(28) 


Esto  es,  la  tasa  de  cambio  (es  decir,  la  derivada)  de  F respecto  de  X es  1  sobre  X.  Las  funciones  exponen¬ 
tial  y  logarltmica  (natural)  se  muestran  en  la  figura  6A.  1 . 

Aunque  el  numero  cuyo  logaritmo  se  toma  es  siempre  positivo,  el  logaritmo  de  dicho  numero  puede  ser 
positivo  o  negativo.  Se  comprueba  facilmente  que  si 

0  <  Y  <  1  entonces  In  F  <  0 
F  =  1  entonces  In  F  =  0 
F  >  1  entonces  In  F  >0 


Ademas,  observe  que,  aunque  la  curva  logarltmica  que  se  ilustra  en  la  figura  6A.1  b)  se  inclina  positi- 
vamente,  lo  que  implica  que  cuanto  mas  grande  sea  el  numero  mayor  sera  tambien  el  valor  logarltmico,  la 
curva  se  incrementa  con  una  tasa  decreciente  (en  matematicas,  la  segunda  derivada  de  la  funcion  es  nega- 
tiva).  Asl,  ln(  10)  =  2.3026  (aproximadamente)  y  ln(20)  =  2.9957  (aproximadamente).  Esto  es,  si  un  numero 
se  duplica,  su  logaritmo  no  aumenta  al  doble. 

Por  esta  razon,  la  transformation  logarltmica  se  llama  transformation  no  lineal.  Esto  tambien  se  aprecia 
en  la  ecuacion  (28),  que  indica  que  si  F=  In  X,  dY/dX  =  1  /X.  Esto  significa  que  la  pendiente  de  la  funcion 
logarltmica  depende  del  valor  de  X;  es  decir,  no  es  constante  (recuerde  la  definition  de  linealidad  en  la 
variable). 

Logaritmos  y  porcentajes:  Como  =  j  o  <7(ln  X)  =  ,  para  cambios  muy  pequenos,  el  cambio 

en  In  X  es  igual  al  cambio  relativo  o  proportional  en  X.  En  la  practica,  si  el  cambio  en  X  es  razonablemente 
pequeno,  la  relation  anterior  se  escribe  como  el  cambio  en  In  Xw  al  cambio  relativo  enX,  donde  significa 
aproximadamente  igual. 


FIGURA  6A.1 

Funciones  exponential  y 
logarltmica:  a )  funcion 
exponential;  b)  funcion 
logarltmica. 


a ) 


b) 


186 


Parte  Uno  Modelos  de  regresion  uniecuacionales 


Asi,  para  cambios  pequenos, 


(In  X,  -  In  Xt_{) 


(Xt-Xt-x) 

Xt-i 


cambio  relativo  en  X 


6A.4  Formulas  para  calcular  la  tasa  de  crecimiento 


Sea  la  variable  7 una  funcion  del  tiempo,  Y  =  f(r),  donde  t  denota  tiempo.  La  tasa  de  crecimiento  instantanea 
(es  decir,  en  un  momento  dado)  de  Y  gy  se  define  como 


dY/dt  _  1  dY 
Y  ~Y~dt 


(29) 


Observe  que  si  multiplicamos  gy  por  100,  obtenemos  la  tasa  porcentual  de  crecimiento,  donde  dJf  es  la  tasa 
de  cambio  de  Y  respecto  del  tiempo. 

Ahora  bien,  si  In  Y  —  lnf(f),  donde  In  representa  el  logaritmo  natural,  entonces 


dlnY  _  1  dY 
dt  Y  dt 


(30) 


Esto  es  lo  mismo  que  la  ecuacion  (29). 

Por  tanto,  las  transformaciones  logaritmicas  son  muy  utiles  para  calcular  tasas  de  crecimiento,  en  espe¬ 
cial  si  Y  es  una  funcion  de  otras  variables  dependientes  del  tiempo,  como  demostrara  el  siguiente  ejemplo. 
Sea 


Y  =  X  ■  Z  (31) 

donde  Y es  el  PIB  nominal,  X el  PIB  real  y  Zel  factor  de  deflacion  de  los  precios  (PIB).  En  otras  palabras,  el 
PIB  nominal  es  el  PIB  real  multiplicado  por  el  factor  de  deflacion  de  los  precios  (PIB).  Todas  estas  variables 
son  funciones  del  tiempo,  pues  varian  con  su  transcurso. 

Ahora,  al  tomar  los  logaritmos  en  ambos  miembros  de  la  ecuacion  (31),  obtenemos: 

In  Y=  lnX+  In Z 

Diferenciamos  la  ecuacion  (32)  respecto  del  tiempo  y  nos  da 

1  dY  _  1  dX  1  dZ 
~Y~dt  ~  Xhi  +  Z~dt 

esto  es,  gy  =  gx+  gz.  donde  g  representa  la  tasa  de  crecimiento. 

De  manera  verbal,  la  tasa  de  crecimiento  instantanea  de  7  es  igual  a  la  suma  de  la  tasa  de  crecimiento 
instantanea  de  X mas  la  tasa  de  crecimiento  instantanea  de  Z.  En  el  presente  ejemplo,  la  tasa  de  crecimien¬ 
to  instantanea  del  PIB  nominal  es  igual  a  la  suma  de  la  tasa  de  crecimiento  instantanea  del  PIB  real  y  la  tasa 
de  crecimiento  instantanea  del  factor  de  deflacion  de  los  precios  del  PIB. 

En  terminos  mas  generates,  la  tasa  de  crecimiento  instantanea  de  un  producto  es  la  suma  de  las  tasas  de 
crecimiento  instantaneas  de  sus  componentes.  Esto  puede  generalizarse  al  producto  de  mas  de  dos  varia¬ 
bles. 

Asimismo,  si  tenemos 


X 

7  =  — 

Z 

(34) 

1  dY 

1  dX  1  dZ 

Y  dt 

X  dt  Z  dt 

(35) 

esto  es,  gy  =  gx—  gz-  En  otras  palabras,  la  tasa  instantanea  de  crecimiento  de  7  es  la  diferencia  entre  la  tasa 
de  crecimiento  instantanea  de  X menos  la  tasa  de  crecimiento  instantanea  de  Z.  Por  tanto,  si  7  =  ingreso per 
capita,  X  =  PIB  y  Z  =  poblacion,  la  tasa  de  crecimiento  instantanea  del  ingreso  per  capita  es  igual  a  la  tasa 
de  crecimiento  del  PIB  menos  la  tasa  de  crecimiento  instantanea  de  la  poblacion. 

Ahora,  sea  Y  —  X+  Z.  (,Que  tasa  de  crecimiento  tiene  7?  Sea  7  =  empleo  total,  X  —  obreros  empleados 
y  Z  —  empleados  administrativos.  Como 


(32) 

(33) 


ln(X+Z)^lnA+ln7, 
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no  es  facil  calcular  la  tasa  de  crecimiento  de  Y  pero  con  algunas  operaciones  algebraicas  se  demuestra  que 


gr 


X  Z 

x  +  z8x  +  x  +  z8z 


(36) 


Esto  es,  la  tasa  de  crecimiento  de  una  suma  es  un  promedio  ponderado  de  las  tasas  de  crecimiento  de 
sus  componentes.  En  este  ejemplo,  la  tasa  de  crecimiento  del  empleo  total  es  un  promedio  ponderado  de  las 
tasas  de  crecimiento  del  empleo  de  obreros  y  empleados  administrativos,  y  sus  respectivas  ponderaciones 
equivalen  a  la  parte  que  representa  cada  componente  del  empleo  total. 


6A.5  Modelo  de  regresion  Box-Cox 


Considere  el  siguiente  modelo  de  regresion: 

=  Pi  +  p2Xt  +Ui  V  >  0  (37) 

donde  X  (la  letra  griega  lambda)  es  un  parametro  que  puede  ser  negativo,  cero  o  positivo.  Como  Y  esta  ele- 
vado  a  la  potencia  X,  obtendremos  varias  transformaciones  de  Y  segun  el  valor  de  X. 

La  ecuacion  (37)  se  conoce  como  modelo  de  regresion  Box-Cox,  en  honor  de  los  estadlsticos  Box  y 
Cox.1  Segun  el  valor  de  X,  tenemos  los  siguientes  modelos  de  regresion,  que  se  muestran  en  forma  tabular: 


Valor  de  X 

Modelo  de  regresion 

1 

Yi  =  fit  4-  PiYj  +  u, 

2 

V)2  =  fi-\  +  f$2  Y-i  +  tij 

0.5 

y/Yj  =  /h  +  @2  Yi  +  Uj 

0 

In  Yj  =  p-\  +  P2X1  +  Ui 

—r=  =  ^1  +  p2^i  +  ^/' 

V  *  / 

TT  —  +  @2  Xj  +  Uj 

*  / 

-0.5 

-1.0 

Como  se  aprecia,  los  modelos  lineal  y  log-lineal  son  casos  especiales  de  la  familia  de  transformaciones 
Box-Cox. 

Por  supuesto,  tales  transformaciones  son  aplicables  a  las  variables  X.  Es  interesante  notar  que  cuando 
X  es  igual  a  cero,  obtenemos  la  transformacion  logarltmica  de  Y.  La  prueba  de  esto  es  compleja  y  es  mejor 
dejarla  para  las  referencias.  (Los  lectores  interesados  en  calculo  tendran  que  recordar  la  regia  de  l’Hopital 
[del  hospital].) 

Sin  embargo,  <j,como  determinamos  en  realidad  el  valor  correspondiente  a  X  en  una  situacion  dada?  No 
podemos  estimar  la  ecuacion  (37)  de  forma  directa,  pues  esto  abarca  no  solo  los  parametros  de  regresion  /Si 
y  /S2,  sino  tambien  X,  que  entra  de  manera  no  lineal.  No  obstante,  se  puede  demostrar  que  con  el  metodo  de 
maxima  verosimilitud  es  posible  estimar  todos  estos  parametros.  Existen  paquetes  de  regresion  que  calculan 
precisamente  esto. 

No  insistiremos  mas  en  este  tema  porque  el  procedimiento  es  un  tanto  complejo. 

Sin  embargo,  podemos  proceder  por  el  metodo  de  ensayo  y  error.  Escoja  varios  valores  de  X,  transforme 
Y  en  consecuencia,  ejecute  la  regresion  (37)  y  obtenga  la  suma  de  cuadrados  de  residuos  (SCR)  de  cada 
regresion  transformada.  Elija  el  valor  de  X  que  de  la  SCR  minima.2 


1  C.E.P.  Box  y  D.R.  Cox,  "An  Analysis  of  Transformations",  journal  of  the  Royal  Statistical  Society,  B26,  1 964, 
pp.  211-243. 

2  Para  un  analisis  accesible,  consulte  John  Neter,  Michael  Kutner,  Christopher  Nachtsheim  y  William  Wasser- 
man,  Applied  Linear  Regression  Models,  3a.  ed.,  Richard  D.  Irwin,  Chicago,  1996. 
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Analisis  de  regresion 
multiple:  el  problema 
de  estimacion 


El  modelo  con  dos  variables,  estudiado  con  amplitud  en  los  capltulos  anteriores,  suele  ser  inade- 
cuado  en  la  practica.  Es  el  caso  del  ejemplo  consumo-ingreso  (ejemplo  3.1),  donde  se  supuso 
impllcitamente  que  solo  el  ingreso  X  se  relaciona  con  el  consumo  Y.  Pero  la  teorla  economica 
rara  vez  es  tan  simple,  pues,  ademas  del  ingreso,  muchas  otras  variables  probablemente  afectan 
el  gasto  de  consumo.  Un  ejemplo  obvio  es  la  riqueza  del  consumidor.  Para  citar  otro  ejemplo, 
es  probable  que  la  demanda  de  un  bien  dependa  no  solo  de  su  propio  precio  sino  tambien  de  los 
precios  de  otros  bienes  competitivos  o  complementarios,  del  ingreso  del  consumidor,  de  la  con¬ 
dition  social,  etc.  Por  consiguiente,  se  necesita  ampliar  el  modelo  simple  de  regresion  con  dos 
variables  para  considerar  modelos  con  mas  de  dos  variables.  La  adicion  de  variables  conduce  al 
analisis  de  los  modelos  de  regresion  multiple,  es  decir,  modelos  en  los  cuales  la  variable  depen- 
diente,  o  regresada,  Y,  depende  de  dos  o  mas  variables  explicativas,  o  regresoras. 

El  modelo  de  regresion  multiple  mas  sencillo  posible  es  la  regresion  de  tres  variables,  con  una 
variable  dependiente  y  dos  variables  explicativas.  En  este  capitulo  y  en  el  siguiente  estudiaremos 
este  modelo.  Durante  todo  el  analisis,  trataremos  con  modelos  de  regresion  lineal  multiple,  es 
decir,  modelos  lineales  en  los  parametros,  que  pueden  ser  o  no  lineales  en  las  variables. 


7.1  Modelo  con  tres  variables:  notacion  y  supuestos 


Al  generalizar  la  funcion  de  regresion  poblacional  (FRP)  de  dos  variables  (2.4.2),  podemos  es- 
cribir  la  FRP  de  tres  variables  asi: 

Y,  —  +  PlXli  +  foXy  +  Uj  (7.1 .1) 

donde  Y  es  la  variable  dependiente,  Xi  y  X 3  las  variables  explicativas  (o  regresoras),  u  es  el  ter- 
mino  de  perturbation  estocastica,  e  i  la  z'-esima  observacion;  en  caso  de  que  los  datos  sean  series 
de  tiempo,  el  sublndice  t  denotara  la  t-esima  observacion.1 


1  Para  efectos  de  simetrfa  notacional,  la  ecuacion  (7.1.1)  se  escribe  tambien  como 

Yi  =  /Si  Xy  +  P2 Xii  +  /S3X3/  +  Uj 


donde  Xy=  1  para  todo 
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En  la  ecuacion  (7. 1 . 1),  /Si  es  el  termino  del  intercepto.  Como  es  usual,  este  termino  da  el  efecto 
medio  o  promedio  sobre  Y  de  todas  las  variables  excluidas  del  modelo,  aunque  su  interpretation 
mecanica  sea  el  valor  promedio  de  Y  cuando  X2  y  X2  se  igualan  a  cero.  Los  coeficientes  fi2  y  ft  se 
denominan  coeficientes  de  regresion  partial,  y  su  significado  se  explicara  en  breve. 

Continuamos  operando  dentro  del  marco  del  modelo  clasico  de  regresion  lineal  (MCRL), 
presentado  en  el  capitulo  3.  Especificamente,  suponemos  lo  siguiente: 


SUPUESTOS 

1 .  Modelo  de  regresion  lineal,  0  lineal  en  los  parametros. 

(7.1.2) 

2.  Valores  fijos  de  X  0  valores  de  X  independientes  del  termino  de  error.  En 
esto  significa  que  se  requiere  covarianza  cero  entre  u,  y  cada  variable  X. 

este  caso, 

cov  (14  X2i)  =  cov  (u„  X3/)  =  0 

3.  Valor  medio  de  la  perturbacion  u,-  igual  a  cero. 

(7.1. B)2 

E(Ui\X2i,  X3 ;)  =  0  por  cada  / 

4.  Homoscedasticidad  0  varianza  constante  de  1 4 

(7.1.4) 

var  (u;)  =  a2 

5.  No  autocorrelacion,  0  correlacion  serial,  entre  las  perturbaciones. 

(7.1.5) 

cov  (u„  Uj)  =  0  /// 

6.  El  numero  de  observaciones  n  debe  ser  mayor  que  el  de  parametros  por  estimar. 

(7.1.6) 

que  en  el  presente  caso  son  3. 

(7.1.7) 

7.  Debe  haber  variacion  en  los  valores  de  las  variables  X. 

Tambien  abordaremos  otros  dos  requisites. 

8.  No  debe  haber  colinealidad  exacta  entre  las  variables  X. 

(7.1.8) 

No  hay  relacion  lineal  exacta  entre  X2  y  X3 

En  la  seccion  7.7  dedicaremos  mas  tiempo  a  analizar  el  supuesto  final. 

9.  No  hay  sesgo  de  especificacion. 

(7.1.9) 

El  modelo  esta  especificado  correctamente. 

(7.1.10) 

El  fundamento  de  los  supuestos  (7. 1 .2)  a  (7. 1 . 10)  es  el  mismo  que  se  explico  en  la  seccion  3.2. 
El  supuesto  (7.1.9),  que  establece  la  no  existencia  de  una  relacion  lineal  exacta  cntrc  X2  y  ft,  se 
conoce  tecnicamente  como  supuesto  de  no  colinealidad,  o  de  no  multicolinealidad  cuando  hay 
mas  de  una  relacion  lineal  exacta. 

Informalmente,  la  no  colinealidad  significa  que  ninguna  de  las  regresoras  puede  escribirse 
como  combination  lineal  exacta  de  las  regresoras  restantes  en  el  modelo. 

De  manera  formal,  la  no  colinealidad  significa  que  no  existe  un  conjunto  de  numeros  7,2  y  A3, 
al  menos  uno  diferente  de  cero,  tales  que 


Y2X2,  +  7.3X3  ,■  —  0 


(7.1.11) 


2  Este  supuesto  se  cumple  automaticamente  si  X2  y  X3  son  no  estocasticas  y  (7.1 .4)  se  mantiene. 
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Si  hay  dicha  relacion  lineal,  se  dice  que  X2  y  X3  son  colineales  o  linealmente  dependientes.  Por 
otra  parte,  si  (7.1.11)  se  cumple  solo  cuando  /,2  =  a 3  =  0,  se  dice  que  X2  y  X2,  son  linealmente 
independientes. 

Asi,  si 


X2i  =  -4X3i  o  X2i  +  4X3;  =0  (7.1.12) 

las  dos  variables  son  linealmente  dependientes,  y  si  se  incluyen  ambas  en  un  modelo  de  regre¬ 
sion,  tendremos  colinealidad  perfecta  o  una  relacion  lineal  exacta  entre  las  dos  regresoras. 

Aunque  consideraremos  con  mas  detalle  el  problema  de  multicolinealidad  en  el  capitulo  10, 
es  facil  captar  intuitivamente  la  logica  del  supuesto  de  no  multicolinealidad.  Suponga  que  en 
(7.1.1)  Y,  X2  y  X3  representan  el  gasto  de  consumo,  el  ingreso  y  la  riqueza  del  consumidor,  res- 
pectivamente.  A1  postular  que  el  gasto  de  consumo  esta  relacionado  linealmente  con  el  ingreso 
y  la  riqueza,  la  teoria  economica  supone  que  los  dos  anteriores  pueden  tener  alguna  influencia 
independiente  sobre  el  consumo.  De  no  ser  asi,  no  tiene  sentido  incluir  ambas  variables,  ingreso  y 
riqueza,  en  el  modelo.  En  la  situation  extrema,  si  existe  una  relacion  lineal  exacta  entre  ingreso 
y  riqueza,  solo  hay  una  variable  independiente,  no  dos,  y  no  hay  forma  de  evaluar  la  influencia 
separada  del  ingreso  y  de  la  riqueza  sobre  el  consumo.  Para  ver  esto  claramente,  seaX3,-  =  2X2l- 
en  la  regresion  consumo-ingreso-riqueza.  Entonces,  la  regresion  (7.1.1)  resulta  ser 

Yi  —  P 1  +  @2X2i  +  @3(2X21)  +  Ui 
=  ft  +  (&  +  2/33)X2  i  +  m  (7.1. IB) 

=  @\  +  etX2i  +  Ui 


donde  a  —  (@2  +  2/63).  Es  decir,  de  hecho  se  tiene  una  regresion  de  dos  variables  y  no  de  tres.  Ade- 
mas,  si  se  hace  la  regresion  (7. 1 . 1 3)  y  se  obtiene  a,  no  hay  forma  de  estimar  la  influencia  separada 
de  X2  (=  @2)  y  X3  (=  sobre  Y,  pues  a  da  la  influencia  combinada  de  X2  y  X3  sobre  Y ? 

En  resumen,  el  supuesto  de  no  multicolinealidad  requiere  que  en  la  FRP  se  incluyan  solamente 
las  variables  que  no  sean  funciones  lineales  exactas  de  alguna  variable  del  modelo.  Aunque  anali- 
zaremos  este  tema  con  mas  detalle  en  el  capitulo  10,  vale  la  pena  notar  un  par  de  puntos  aqui: 

Primero,  el  supuesto  de  que  no  hay  multicolinealidad  pertenece  al  modelo  teorico  (es  decir,  a 
la  FRP).  En  la  practica,  cuando  se  recopilan  datos  para  el  analisis  empirico,  no  hay  una  garantia 
de  que  no  existiran  correlaciones  entre  las  regresoras.  De  hecho,  en  la  mayor  parte  del  trabajo 
aplicado  casi  es  imposible  encontrar  dos  o  mas  variables  (economicas)  que  quiza  no  esten  corre- 
lacionadas  en  alguna  medida,  como  mostraremos  en  los  ejemplos  ilustrativos  mas  adelante  en 
este  capitulo.  Lo  que  se  requiere  es  que  no  haya  una  relacion  exacta  entre  las  regresoras,  como 
en  la  ecuacion  (7.1.12). 

En  segundo  lugar,  tenga  presente  que  solo  hablamos  de  relaciones  lineales  perfectas  entre  dos 
o  mas  variables.  La  multicolinealidad  no  es  valida  para  relaciones  no  lineales  entre  variables. 
Suponga  que  X3,  =  X\t.  Esto  no  viola  el  supuesto  de  no  colinealidad  perfecta,  en  vista  de  que  la 
relacion  entre  las  variables  es  no  lineal. 


3  En  terminos  matematicos,  a  =  (fo  +  2  fo)  es  una  ecuacion  con  dos  incognitas  y  no  hay  una  forma  unica  de 
estimar  y  ft  a  partir  de  la  a  estimada. 
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7.2  Interpretation  de  la  ecuacion  de  regresion  multiple 


Con  los  supuestos  del  modelo  de  regresion  clasico,  se  cumple  que,  al  tomar  la  esperanza  condi- 
cional  de  Y  en  ambos  lados  de  (7.1.1),  obtenemos 


E{Yi  |  Xji,  Xy)  =  fa  +  p2X2i  +  fhiXy  (7.2.1) 

Expresado  en  palabras,  de  (7.2.1)  se  obtiene  la  media  condicional  o  el  valor  esperado  de  Y 
condicionado  a  los  valores  dados  o  fijos  de  las  variables  X2  y  Xy  Por  consiguiente,  como  en 
el  caso  de  dos  variables,  el  analisis  de  regresion  multiple  es  el  analisis  de  regresion  condicional 
sobre  los  valores  fijos  de  las  variables  explicativas,  y  lo  que  obtenemos  es  el  valor  promedio  o  la 
media  de  Y,  o  la  respuesta  media  de  Y  a  los  valores  dados  de  las  regresoras  X. 


7.3  Significado  de  los  coeficientes  de  regresion  parcial 


Como  ya  mencionamos,  los  coeficientes  de  regresion  fi2  y  se  conocen  como  coeficientes  de 
regresion  parcial  o  coeficientes  parciales  de  pendiente.  El  significado  del  coeficiente  de  re¬ 
gresion  parcial  es  el  siguiente:  (J>2  mide  el  cambio  en  el  valor  de  la  media  de  Y,  E{Y),  por  unidad 
de  cambio  en  X2,  con  X2  constante.  Expresado  de  otra  forma,  proporciona  el  efecto  “directo”  o 
“neto”  que  tiene  una  unidad  de  cambio  de  X2  sobre  el  valor  medio  de  Y,  neto  de  cualquier  efecto 
que  X2  pueda  ejercer  en  la  media  Y.  De  igual  forma,  fi2  mide  el  cambio  en  el  valor  medio  de  Y 
por  unidad  de  cambio  en  Xy  cuando  el  valor  de  X2  se  conserva  constante.4  Es  decir,  da  el  efecto 
“directo”  o  “neto”  de  una  unidad  de  cambio  en  X2  sobre  el  valor  medio  de  Y,  neto  de  cualquier 
efecto  que  X2  pudiera  tener  sobre  la  media  7. 5 

En  realidad,  (;c6mo  hariamos  para  conservar  constante  la  influencia  de  una  regresora?  Para 
averiguarlo,  retomemos  el  ejemplo  de  la  mortalidad  infantil.  Recuerde  que  en  ese  ejemplo  Y  = 
mortalidad  infantil  (MI),  X2  =  P1B  per  capita  (PIBPC)  y  X2  =  tasa  de  alfabetizacion  en  las  mu- 
jeres  (TAM).  Suponga  que  deseamos  conservar  constante  la  influencia  de  la  TAM.  Como  TAM 
puede  tener  algun  efecto  sobre  Ml  asi  como  sobre  PIBPC  para  cualesquiera  datos  concretos, 
lo  que  podemos  hacer  es  eliminar  la  influencia  (lineal)  que  TAM  ejerce  tanto  en  MI  como  en 
PIBPC,  al  hacer  la  regresion  de  MI  sobre  TAM  y  la  regresion  de  PIBPC  sobre  TAM  en  forma  se- 
parada,  y  luego  buscar  los  residuos  obtenidos  de  tales  regresiones.  Con  los  datos  proporcionados 
en  la  tabla  6.4,  obtenemos  las  siguientes  regresiones: 


MI,  =  263.8635  -  2.3905  TAM,  +  uu 
ee  =  (12.2249)  (0.2133)  r1  =  0.6695 

donde  uy  representa  el  termino  residual  de  esta  regresion. 


PIBPC,  =  -39.3033  +  28.1427  TAM,  +  u2i 

ee  =  (734.9526)  (12.8211)  r2  =  0.0721 


(7.3.1) 


(7.3.2) 


donde  uy  representa  el  termino  residual  de  esta  regresion. 


4  El  lector  con  conocimientos  de  calculo  se  dara  cuenta  de  inmediato  de  que  ft  y  ft  son  las  derivadas  parcia¬ 
les  de  E(Y  \X2,  X2)  respecto  de  X2  y  X3. 

5  A  proposito,  las  expresiones  mantener  constante,  estar  controlado  por,  permitir  o  tomar  en  cuenta  la  influencia 
de,  corregir  la  influencia  de  y  eliminar  la  influencia  de  son  sinonimos  y  se  utilizaran  de  manera  indistinta  a  lo 
largo  de  esta  obra. 
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Ahora 


uu  =  (MI,  -  263.8635  +  2.3905  TAM,)  (7.3.3) 

representa  la  parte  de  Ml  que  queda  despues  de  anular  la  influencia  (lineal)  de  TAM.  De  igual 
forma, 


u2i  =  (PIBPC,  +  39.3033  -  28.1427  TAM,  )  (7.3.4) 

representa  la  parte  del  PIBPC  que  queda  despues  de  eliminar  la  influencia  (lineal)  de  TAM. 

Por  consiguiente,  si  ahora  se  hace  la  regresion  de  u\,  o  M2„  que  estan  “purificadas”  de  la  in¬ 
fluencia  (lineal)  de  TAM,  ^no  obtendriamos  el  efecto  neto  del  PIBPC  sobre  MI?  De  hecho,  asi 
sucede  (vease  el  apendice  7A,  seccion  7A.2).  Los  resultados  de  la  regresion  son  los  siguientes: 


uu  —  — 0.0056«2i 
ee  =  (0.0019)  a-2  =  0.1 152 


(7.3.5) 


Nota:  Esta  regresion  no  tiene  el  termino  de  intercepto  porque  el  valor  medio  de  los  residuos 
MCO  Uu  y  uii  son  cero  (^por  que?). 

El  coeficiente  de  la  pendiente  de  —0.0056  ahora  proporciona  el  efecto  “verdadero”  o  neto  de 
una  unidad  de  cambio  en  PIBPC  sobre  MI,  o  la  verdadera  pendiente  de  Ml  respecto  de  PIBPC. 
Es  decir,  proporciona  el  coeficiente  de  regresion  parcial  de  MI  respecto  de  PIBPC,  fc- 

Quienes  deseen  determinar  los  coeficientes  de  la  regresion  parcial  de  MI  respecto  de  TAM 
pueden  repetir  el  procedimiento  anterior:  primero  deben  efectuar  la  regresion  de  MI  sobre  PIBPC 
para  obtener  los  residuos  de  esta  regresion  (u\,),  despues,  la  regresion  de  TAM  sobre  PIBPC  para 
obtener  los  residuos  de  esta  regresion  (uu),  y  por  ultimo,  la  regresion  u\l  sobre  ui,.  Estoy  seguro 
de  que  los  lectores  comprendieron  la  idea. 

('Tcncmos  que  llevar  a  cabo  este  procedimiento  de  multiples  pasos  siempre  que  deseemos  co- 
nocer  el  verdadero  coeficiente  de  la  regresion  parcial?  Por  fortuna,  no,  pues  el  mismo  resultado  se 
obtiene  de  forma  muy  rapida  y  rutinaria  mediante  el  procedimiento  MCO  analizado  en  esta  sec¬ 
cion.  El  metodo  de  varios  pasos  que  acabamos  de  esbozar  tiene  solo  fines  pedagogicos,  a  fin  de 
exponer  el  significado  del  coeficiente  de  regresion  “parcial”. 


7.4  Estimacion  de  MCO  y  MV  de  los  coeficientes  de  regresion  parcial 


Para  estimar  los  parametros  del  modelo  de  regresion  con  tres  variables  (7.1.1)  consideraremos 
primero  el  metodo  de  minimos  cuadrados  ordinarios  (MCO),  presentado  en  el  capitulo  3,  y  luego, 
brevemente,  el  metodo  de  maxima  verosimilitud  (MV),  estudiado  en  el  capitulo  4. 


Estimadores  de  MCO 

Para  encontrar  los  estimadores  de  MCO,  escribamos  primero  la  funcion  de  regresion  muestral 
(FRM)  correspondiente  a  la  FRP  de  (7.1.1)  de  la  siguiente  manera: 

?i  =  P\+  hXn  +  fe  +  u  ,-  (7.4. 1 ) 

donde  u,  es  el  termino  residual,  la  contraparte  muestral  del  termino  de  perturbacion  estocastico 

Ui. 
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Como  se  vio  en  el  capitulo  3,  el  procedimiento  MCO  consiste  en  seleccionar  los  valores  des- 
conocidos  de  los  parametros  de  forma  que  la  suma  de  cuadrados  de  los  residuos  (SCR)  X!  4  sea 
lo  mas  pequena  posible.  Simbolicamente, 

min  £«?  =  £( Yi  -fa-  hXn  -  hX3i)2  (7.4.2) 


donde  la  expresion  para  la  SCR  se  obtiene  por  simple  manipulacion  algebraica  de  (7.4.1). 

El  procedimiento  mas  directo  para  obtener  los  estimadores  que  reducen  (7.4.2)  es  diferen- 
ciarla  respecto  de  las  incognitas,  igualar  a  cero  las  expresiones  resultantes  y  resolverlas  al  mismo 
tiempo.  Como  se  muestra  en  el  apendice  7A,  seccion  7A.1,  de  este  procedimiento  se  obtienen  las 
siguientes  ecuaciones  normales  [comparables  con  las  ecuaciones  (3.1.4)  y  (3.1.5)]: 


Y  =  P  i  +  P2X2  +  (7.4.3) 

Y  Y<x*  =  ^Y  Xit  +  &  Y  ^ + &  Y  x*x*  (7.4.4) 

Y  Y'x 3/  =  Pi  Y  X +  XliX*  +  Xl  (7.4.5) 


De  la  ecuacion  (7.4.3)  vemos  al  instante  que 


Pi  =  Y-  P2X2  ~  /S3X3 


(7.4.6) 


que  es  el  estimador  de  MCO  del  intercepto  poblacional  P\. 

Conforme  a  la  convencion  de  permitir  que  las  letras  minusculas  denoten  desviaciones  de 
las  medias  muestrales,  se  derivan  las  siguientes  formulas  de  las  ecuaciones  normales  (7.4.3)  a 
(7.4.5): 


^  =  (E.Vi^)(E4)  ~  (E.Lx3,)(Ex2/*3/) 

(E4)(E4)  -  (£*2/*3«)2 
2  =  (E.^3i)(E4)  ~  (E:ft*2/)(E-*2/*3f) 

(E4HE4)  -  (E^2ix3,)2 


(7.4.7)6 


(7.4.8) 


que  dan  los  estimadores  de  MCO  de  los  coeficientes  de  regresion  parcial  poblacionales,  P2  y  ft, 
respectivamente. 

A  proposito,  observe  lo  siguiente:  1)  Las  ecuaciones  (7.4.7)  y  (7.4.8)  son  simetricas  por  natu- 
raleza,  porque  una  se  obtiene  de  la  otra  mediante  el  cambio  de  papeles  de  X2  y  A3;  2)  los  deno- 
minadores  en  estas  dos  ecuaciones  son  identicos;  y  3)  el  caso  de  tres  variables  es  una  extension 
natural  del  caso  de  dos  variables. 


6  Este  estimador  es  igual  al  de  (7.3.5),  como  se  muestra  en  el  apendice  7A,  seccion  7A.2. 
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Varianzas  y  errores  estandar  de  los  estimadores  de  MCO 

Despues  de  obtener  los  estimadores  de  MCO  de  los  coeficientes  de  regresion  parcial  derivamos 
las  varianzas  y  los  errores  estandar  de  los  estimadores  como  se  indica  en  el  apendice  3A.3.  Igual 
que  en  el  caso  de  dos  variables,  se  necesitan  los  errores  estandar  para  dos  fines  principales:  es- 
tablecer  intervalos  de  confianza  y  probar  hipotesis  estadisticas.  Las  formulas  pertinentes  son  las 
siguientes:7 


var(ft)  = 


1  ,  ^£4+^E4-2^3Ex2,x3,  ct2 

n  E  4  E  4  -  ( E  X2ix3i)2 


(7.4.9) 


ee(ft)  = 


+\/var(ft) 


(7.4.10) 


var(ft)  = 


E* 


2 
3  / 


(E4)(E4)-(EW 


(7.4.11) 


o,  en  forma  equivalente, 


var  (ft) 


(7.4.12) 


E4  (!  -4s) 

donde  r2 3  es  el  coeficiente  de  correlacion  muestral  entrc  ft  y  ft,  como  se  define  en  el  capltulo  3. 8 

(7.4.13) 


ee(ft)  =  +Vvar(ft) 


var(ft)  = 


E4 


(E4)(E4)  -  (E*2i*3») 


o,  en  forma  equivalente. 


E4(1  -4) 


var  (ft)  = 


ee  (ft)  =  +V  var(ft) 


cov(ft,ft)  = 


-r23a- 


(7.4.14) 

(7.4.15) 

(7.4.16) 

(7.4.17) 


En  todas  estas  formulas,  a2  es  la  varianza  (homoscedastica)  de  las  perturbaciones  poblacionales 

Ui. 

Segun  el  argumento  del  apendice  3  A,  section  3A.5,  el  lector  puede  verificar  que  un  estimador 
insesgado  de  a2  esta  dado  por 


n  —  3 


(7.4.18) 


7  Las  derivaciones  de  estas  formulas  son  mas  sencillas  con  notacion  matricial.  Los  lectores  con  mayores  cono- 
cimientos  pueden  consultar  el  apendice  C. 

8  Con  la  definicion  de  rdada  en  el  capftulo  3,  tenemos 


2  _  (X)  -^2/^3/) 

E4E4 
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Observe  la  similitud  entre  este  estimador  de  a2  y  su  correspondiente  en  el  caso  de  dos  varia¬ 
bles  [a2  —  —  2)].  Los  grados  de  libertad  son  ahora  {n  -  3)  porque,  para  calcular  u2, 

se  deben  estimar  primero  ft,  ft  y  ft,  los  cuales  consumen  3  gl.  (El  argumento  es  muy  general. 
Asi,  en  el  caso  de  cuatro  variables,  los  gl  seran  n  -  4.) 

El  estimador  d1  se  calcula  de  (7.4.18)  una  vez  que  se  dispone  de  los  residuos,  pero  tambien 
se  obtiene,  mas  rapido,  con  la  siguiente  relacion  (para  una  prueba,  vease  el  apendice  7A,  section 
7A.3): 


Y  =  Y  y*  -  fa  y,X2‘  ~  ^  Y  y‘X3i  (7 -4- 1 9) 

que  es  la  contraparte  de  tres  variables  de  la  relacion  dada  en  (3.3.6). 


Propiedades  de  los  estimadores  de  MCO 

Las  propiedades  de  los  estimadores  de  MCO  del  modelo  de  regresion  multiple  son  similares  a  las 
del  modelo  con  dos  variables.  Especificamente: 

1.  La  linea  (superficie)  de  regresion  de  tres  variables  pasa  a  traves  de  las  medias  de  Y,  A2  y 
A3,  lo  cual  se  hace  evidente  en  (7.4.3)  [comparese  con  la  ecuacion  (3.1.7)  del  modelo  con  dos 
variables].  Esta  propiedad  generalmente  se  mantiene.  Asi,  en  el  modelo  de  regresion  lineal  con 
k  variables  [una  regresada  y  (k  —  1 )  regresoras], 

Yi  —  ft  +  ftA2f  +  ft  A3;  +  •  ■  ■  +  ftA,t;  +  Uj  (7.4.20) 

se  tiene  que 

ft  =  Y  -  ftA2  -  ft  A3 - ft  A,  (7.4.21 ) 

2.  El  valor  medio  de  Y,  estimado  Yt(  =  Yj)  es  igual  al  valor  medio  de  Yt  observado,  lo  cual  es 
facil  de  demostrar: 

Yt  =  ft  +  ft  A2;  +  ft  A3; 

—  (Y  —  ftA2  -  ftA3)  +  ftA2,  +  ft A3;  fePor  que?) 

-  -  -  „  -  (7.4.22) 

—  Y  +  ft ( A2;  -  A2)  +  ft ( A3;  -  A3) 

—  Y  ftx2;  +  ftX3; 

donde,  como  es  usual,  las  letras  minusculas  indican  los  valores  de  las  variables  expresadas  como 
desviaciones  de  sus  medias  respectivas. 

Al  sumar  en  ambos  lados  de  (7.4.22)  sobre  los  valores  muestrales  y  dividir  entre  el  tamano  de 
la  muestra  n,  se  tiene  Y  —  Y.  ( Nota :  Ylx2i  —  t,P°r  que?)  Observe  que,  en  virtud 

de  (7.4.22),  podemos  escribir 

yi  —  ftx2;  +  ftx3;  (7.4.23) 

donde  y,  ={%-  Y). 

Por  consiguiente,  la  FRM  (7.4.1)  se  expresa  en  forma  de  desviaciones  como 

yt  =  Pi  +  ut  =  ftx2;  +  ft^3i  +  Ui  (7.4.24) 

3.  Uj  —  11  —  0,  lo  cual  se  verifica  de  (7.4.24).  [Sugerencia:  Sume  ambos  lados  de  (7.4.24) 
sobre  los  valores  muestrales.] 

4.  Los  residuos  u,  no  estan  correlacionados  con  A2i-  y  A3;,  es  decir,  J2  u ,  A2;  =  J2  M1A3;  =  0 
(vease  la  prueba  en  el  apendice  7A.1). 
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5.  Los  residuos  u,  no  estan  correlacionados  con  Y;  es  decir,  m,  Y,  —  0.  ^Por  que?  [Sugeren- 
cia:  Multiplique  ambos  lados  de  (7.4.23)  por  m,  y  sume  sobre  los  valores  muestrales.] 

6.  De  (7.4.12)  y  (7.4.15)  es  evidente  que,  a  medidaque  r 22,  el  coeficiente  de  correlacion  entre 
X2  y  X2,  se  acerca  a  1,  las  varianzas  de  fi2  y  /S3  aumentan  para  los  valores  dados  de  a2  y  x2i  o 

En  el  llmite,  cuando  r2  3  =  1  (es  decir,  la  colinealidad  perfecta),  estas  varianzas  se  hacen 
infinitas.  En  el  capitulo  10  analizaremos  a  fondo  las  implicaciones  de  esto,  pero  ya  el  lector  puede 
intuir  que,  a  medida  que  aumenta  r2 3,  resulta  cada  vez  mas  dificil  conocer  los  valores  verdaderos 
de  /J2  y  /I3.  [Veremos  mas  detalles  en  el  siguiente  capitulo,  pero  mientras,  consulte  la  ecuacion 
(7.1.13).] 

7.  Tambien  es  claro,  de  (7.4. 12)  y  (7.4. 1 5),  que,  para  valores  dados  de  r22  y  x2 ; 0  X  xh>  las 
varianzas  de  los  estimadores  de  MCO  son  directamente  proporcionales  a  cr2;  es  decir,  aumentan 
a  medida  que  lo  hace  a2.  En  forma  similar,  para  valores  dados  de  a2  y  r2 3,  la  varianza  de  ji2  es  in- 
versamente  proporcional  a  x\,\  es  decir,  entre  mayor  sea  la  variacion  de  los  valores  muestrales 
de  X2,  menor  sera  la  varianza  de  fi2  y,  por  consiguiente,  (J>2  se  estima  en  forma  mas  precisa.  Una 
afirmacion  similar  vale  respecto  de  la  varianza  de  /I3. 

8.  Con  los  supuestos  del  modelo  clasico  de  regresion  lineal  enunciados  en  la  seccion  7.1  se 
demuestra  que  los  estimadores  de  MCO  de  los  coeficientes  de  regresion  parcial  no  solamente 
son  lineales  e  insesgados,  sino  que  tambien  tienen  varianza  minima  dentro  de  la  clase  de  todos 
los  estimadores  lineales  insesgados.  En  resumen,  son  MELI.  Dicho  de  otra  forma,  satisfacen 
el  teorema  de  Gauss-Markov.  (La  prueba  es  similar  al  caso  de  dos  variables  demostrado  en  el 
apendice  3A,  seccion  3A.6,  y  se  presentara  en  forma  mas  compacta  con  notacion  matricial  en 
el  apendice  C). 


Estimadores  de  maxima  verosimilitud 

En  el  capitulo  4  observamos  que,  segun  el  supuesto  de  que  las  perturbaciones  poblacionales, 
m„  esten  normalmente  distribuidas  con  media  cero  y  varianza  o 2  constante,  los  estimadores  de 
maxima  verosimilitud  (MV)  y  los  estimadores  de  MCO  de  los  coeficientes  de  regresion  del  mo¬ 
delo  con  dos  variables  son  identicos.  Esta  igualdad  se  extiende  a  modelos  con  cualquier  numero  de 
variables.  (Para  una  demostracion,  vease  el  apendice  7A,  seccion  7A.4.)  Sin  embargo,  esto  no 
vale  para  el  estimador  de  cr2.  Puede  demostrarse  que  el  estimador  de  MV  de  cr 2  es  uj/n  sin 
importar  el  numero  de  variables  en  el  modelo,  mientras  que  el  estimador  de  MCO  de  o2  es 
uj/ (n  —  2)  en  el  caso  de  dos  variables,  u 2 /(«  —  3)  en  el  caso  de  tres  variables  y  J2  tf/(n  ~  k) 

en  el  caso  del  modelo  de  k  variables  (7.4.20).  En  resumen,  el  estimador  de  MCO  de  cr2  tiene  en 
cuenta  el  numero  de  grados  de  libertad,  mientras  que  el  estimador  MV  no  lo  hace.  Por  supuesto, 
si  n  es  grande,  los  estimadores  de  MV  y  MCO  de  a2  tienden  a  estar  cerca  uno  del  otro.  ((',Por 
que?) 


7.5  El  coeficiente  multiple  de  determinacion  i?2 
y  el  coeficiente  multiple  de  correlacion  R 

En  el  caso  de  dos  variables  vimos  que  r2,  definido  en  (3.5.5),  mide  la  bondad  de  ajuste  de  la 
ecuacion  de  regresion;  es  decir,  da  la  proporcion  o  porcentaje  de  la  variacion  total  en  la  variable 
dependiente  Y  explicada  por  la  variable  (unica)  explicativa  X.  Esta  notacion  de  r 2  se  extiende  fa- 
cilmente  a  los  modelos  de  regresion  con  mas  de  dos  variables.  Asi,  en  el  modelo  de  tres  variables 
buscamos  conocer  la  proporcion  de  la  variacion  en  Y  explicada  por  las  variables  X2  y  X2  con- 
juntamente.  La  medida  que  da  esta  informacion  se  conoce  como  coeficiente  de  determinacion 
multiple,  y  se  denota  por??2;  conceptualmente  se  asemeja  a  r2. 
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Para  obtener  R2,  podemos  seguir  el  procedimiento  para  obtener  r2  descrito  en  la  seccion  3.5. 
Recuerde  que 


Yj  —  P\  +  $2X2  i  +  $3X31  +  Ui 

—  Yi  +  Ui 


(7.5.1) 


donde  Yt  es  el  valor  estimado  de  Y,  a  partir  de  la  llnea  de  regresion  ajustada  y  es  un  estimador  de 
la  verdadera E(Yt  \  X2 Xi ,).  A1  sustituir  las  letras  mayusculas  por  minusculas  para  indicar  desvia- 
ciones  de  sus  medias,  la  ecuacion  (7.5.1)  se  escribe  como 


yi  =  Pixn  +  Pixi  i  +  Hi 

—  Vi  +  Ui 


(7.5.2) 


Elevamos  al  cuadrado  (7.5.2)  en  ambos  lados  y  sumamos  sobre  los  valores  muestrales  para  ob¬ 
tener 


&2  =  E  yf  +  J2  %  +  2 

=  X!  $  +  «2  (<iPor  qu6?) 


(7.5.3) 


En  palabras,  la  ecuacion  (7.5.3)  afirma  que  la  suma  de  cuadrados  total  (STC)  es  igual  a  la  suma 
de  cuadrados  explicada  (SCE)  +  la  suma  de  cuadrados  de  residuos  (SCR).  Ahora,  sustituimos  el 
equivalente  de  uj  dado  en  la  ecuacion  (7.4.19)  y  obtenemos 

J2y‘  =J2y‘+  J2y!  -  Pi  Y^Yix 2i  ~  h  J2Yix* 


la  cual,  al  reordenar  terminos,  da 


SCE  =  yf  -  Pi  'Y^yiXii  +  Pi  (7.5.4) 


Ahora,  por  definicion, 


SCE 

SCT 

Pi  Hyixn  +  Pi  X>*3/ 

E.v,2 


(7.5.5)9 


[Compare  (7.5.5)  con  (3.5.6).] 

Como  las  cantidades  consideradas  en  (7.5.5)  suelen  calcularse  de  forma  rutinaria,  R2  se  calcu- 
la  sin  problemas.  Observe  que  R2,  al  igual  que  r2,  se  encuentra  entre  0  y  1.  Si  es  1,  la  linea  de 
regresion  ajustada  explica  100%  de  la  variacion  en  Y.  Por  otra  parte,  si  es  0,  el  modelo  no  explica 
nada  de  la  variacion  en  Y.  Sin  embargo,  por  lo  general  R2  se  encuentra  entre  estos  dos  valores 
extremos.  Se  dice  que  el  ajuste  del  modelo  es  “mejor”  entre  mas  cerca  este  R2  de  1. 


9  Observe  que  R2  tambien  se  calcula  de  la  siguiente  manera: 

2  RSS  £D?  (n-  3)a2 

TSS  Y.yf  (n-i  )Sj 
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Recuerde  que,  en  el  caso  de  dos  variables,  definimos  r  como  el  coeficiente  de  correlacion  e 
indicamos  que  mide  el  grado  de  asociacion  (lineal)  entre  las  dos  variables.  El  analogo  de  r  para 
tres  o  mas  variables  es  el  coeficiente  de  correlacion  multiple,  denotado  por  R ,  el  cual  es  una 
medida  del  grado  de  asociacion  entre  Y  y  todas  las  variables  explicativas  en  conjunto.  Aunque 
r  puede  ser  positivo  o  negativo,  R  siempre  se  considera  positivo.  En  la  practica,  sin  embargo,  R 
tiene  poca  importancia.  La  medida  de  mayor  significado  es  R2. 

Antes  de  continuar,  establezcamos  la  siguiente  relacion  entre  R2  y  la  varianza  de  un  coeficiente 
de  regresion  parcial  en  el  modelo  de  regresion  multiple  con  k  variables  dado  en  (7.4.20): 

var (fij)  —  —  .  ( - ^  )  (7.5.6) 

£*,  \l~  Rj) 

donde  fij  es  el  coeficiente  de  regresion  parcial  de  la  regresora  Xj  y  R2  es  el  R1  en  la  regresion  de 
Xj  sobre  las  ( k  —  2)  regresoras  restantes.  \Nota:  En  el  modelo  de  regresion  con  k  variables  hay 
( k  —  1)  regresoras],  Aunque  la  utilidad  de  la  ecuacion  (7.5.6)  se  vera  en  el  capitulo  10,  sobre 
multicolinealidad,  observe  que  esta  ecuacion  es  solo  una  extension  de  la  formula  dada  en  (7.4. 12) 
o  (7.4.15)  para  el  modelo  de  regresion  con  tres  variables,  una  regresada  y  dos  regresoras. 


7.6  Un  ejemplo  ilustrativo 


EJEMPLO  7.1 

Mortalidad  infantil 
en  relacion  con  el 
PIB  per  capita  y  la 
tasa  de  alfabetiza- 
cion  de  las  mujeres 


En  el  capitulo  6  consideramos  el  comportamiento  de  la  mortalidad  infantil  (Ml)  en  relacion  con 
el  PIB  per  capita  (PIBPC).  Vimos  que  el  PIBPC  ejerce  un  impacto  negativo  sobre  la  Ml,  como  era 
de  esperarse.  Ahora  se  presenta  el  alfabetismo  femenino  medido  por  la  tasa  de  alfabetizacion  de 
las  mujeres  (TAM).  A  priori,  se  espera  que  la  TAM  tambien  ejerza  un  impacto  negativo  en  la  Ml. 
Ahora,  cuando  se  introducen  ambas  variables  en  el  modelo,  se  requiere  eliminar  la  influencia 
neta  de  cada  regresora.  Es  decir,  necesitamos  estimar  los  coeficientes  de  regresion  (parcial)  de 
cada  regresora.  Por  tanto,  el  modelo  es: 


Ml,  =Pi+  PIBPC,  +  dsTAM ,  +  Uj  (7.6.1) 

Los  datos  necesarios  se  proporcionan  en  la  tabla  6.4.  Tenga  en  cuenta  que  la  Ml  es  el  numero  de 
muertes  de  ninos  menores  de  5  anos  por  cada  1  000  nacidos  vivos,  el  PIBPC  es  el  PIB  per  capita 
en  1980  y  la  TAM  se  mide  en  porcentaje.  La  muestra  se  realizo  en  64  paises. 

Con  el  paquete  estadistico  EViews6  se  obtienen  los  siguientes  resultados: 

Ml,  =263.6416  -  0.0056  PIBPC,  -  2.2316TAM, 

ee=  (11.5932)  (0.0019)  (0.2099)  R2  =  0.7077  (7.6.2) 

R2  =  0.6981* 


donde  las  cifras  en  parentesis  son  los  errores  estandar  estimados.  Antes  de  interpretar  esta  regre¬ 
sion,  observe  el  coeficiente  parcial  de  la  pendiente  del  PIBPC,  a  saber,  —0.0056.  ^No  es  preci- 
samente  el  mismo  que  obtuvimos  del  procedimiento  en  tres  pasos  de  la  seccion  anterior  [vease 
la  ecuacion  (7.3.5)]?  ^Esto  debe  sorprender?  Y  no  nada  mas  eso,  sino  que  tambien  los  dos 
errores  estandar  son  justamente  los  mismos,  lo  cual  de  nuevo  no  debe  causar  sorpresa  alguna. 
Hicimos  eso  mismo  pero  sin  el  engorroso  procedimiento  de  tres  pasos. 


*  Al  respecto,  vease  la  seccion  7.8. 
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Ahora  interpretemos  estos  coeficientes  de  regresion:  —0.0056  es  el  coeficiente  de  regresion 
parcial  del  PIBPC  e  indica  que,  si  se  mantiene  constante  la  influencia  de  la  TAM,  conforme  el 
PIBPC  se  incrementa,  por  ejemplo  en  un  dolar  en  promedio,  la  mortalidad  infantil  disminuye 
en  0.0056  unidades.  Para  interpretar  esto  desde  el  punto  de  vista  economico,  si  el  PIB  per 
capita  se  incrementara  1  000  dolares,  en  promedio,  el  numero  de  muertes  de  ninos  menores 
de  5  anos  se  reducirfa  a  5.6  por  cada  1  000  nacimientos  vivos.  El  coeficiente  —2.2316  senala 
que  si  la  influencia  del  PIBPC  se  mantiene  constante,  el  numero  de  muertes  de  ninos  menores 
de  5  anos  disminuirfa,  en  promedio,  2.23  por  cada  1  000  nacimientos  vivos,  si  la  tasa  de  alfa- 
betizacion  en  las  mujeres  subiera  un  punto  porcentual.  El  valor  del  intercepto  de  alrededor  de 
263,  si  se  interpretara  de  una  forma  mecanicista,  significarfa  que  si  los  valores  del  PIBPC  y  de  la 
TAM  fuesen  cero,  la  mortalidad  infantil  promedio  serfa  de  mas  o  menos  263  muertes  por  cada 
1  000  nacimientos  vivos.  Por  supuesto,  tal  interpretacion  debe  tomarse  con  mucho  cuidado. 
Cualquiera  puede  inferir  que  si  dos  regresoras  tuviesen  un  valor  cero,  la  mortalidad  infantil  serfa 
muy  alta,  lo  cual  tiene  sentido.  El  valor  de  R2  de  casi  0.71  significa  que  casi  71%  de  la  variacion 
en  la  mortalidad  infantil  se  explica  mediante  el  PIBPC  y  la  TAM,  lo  cual  es  un  gran  porcentaje 
si  se  considera  que  el  valor  maximo  que  puede  tener  R2  es  1 .  De  todo  lo  dicho  hasta  aquf,  los 
resultados  de  la  regresion  tienen  sentido. 

(Y  que  pasa  con  la  importancia  de  los  coeficientes  estimados?  Abordaremos  este  tema  en  el 
capftulo  8.  Como  vera,  dicho  capftulo  es  una  extension  del  capftulo  5,  que  aborda  el  modelo 
de  dos  variables.  Tambien  vera  que  hay  algunas  diferencias  importantes,  en  cuanto  a  inferencia 
estadfstica  (es  decir,  pruebas  de  hipotesis),  entre  el  modelo  de  regresion  con  dos  variables  y  el 
multivariado. 


Regresion  sobre  variables  estandarizadas 

En  el  capftulo  anterior  presentamos  el  tema  de  la  regresion  sobre  variables  estandarizadas  y  afir- 
mamos  que  el  analisis  se  podia  extender  a  las  regresiones  multivariadas.  Recuerde  que  una  varia¬ 
ble  es  estandarizada  o  se  expresa  en  unidades  de  desviacion  estandar  si  se  expresa  en  terminos  de 
desviacion  de  su  media  y  se  dividio  entre  su  desviacion  estandar. 

Para  el  ejemplo  de  la  mortalidad  infantil,  los  resultados  son  los  siguientes: 

MI*  =  -  0.2026  PIBPC*  -  0.7639  TAM*  (7.6.3) 

ee=  (0.0713)  (0.0713)  r2  =  0.7077 

Nota:  Las  variables  con  asterisco  estan  estandarizadas.  Tambien  observe  que  no  existe  termino  de 
intercepto  en  el  modelo  por  las  razones  que  ya  analizamos  en  el  capitulo  anterior. 

Como  se  aprecia  en  esta  regresion,  si  se  conserva  constante  la  TAM,  un  incremento  igual  a 
una  desviacion  estandar  en  el  PIBPC  propicia,  en  promedio,  una  disminucion  de  0.2026  desvia¬ 
cion  estandar  en  la  Ml.  De  manera  semejante,  si  se  conserva  al  PIBPC  constante,  un  incremento 
igual  a  una  desviacion  estandar  en  la  TAM,  en  promedio,  causara  una  disminucion  de  0.7639  de 
desviacion  estandar  en  la  MI.  En  terminos  relativos,  el  alfabetismo  en  las  mujeres  tiene  un  mayor 
impacto  en  la  mortalidad  infantil  que  el  PIB  per  capita.  Aqui  se  advierte  la  ventaja  de  utilizar 
variables  estandarizadas,  pues  la  estandarizacion  hace  que  todas  las  variables  tengan  una  medida 
comun,  en  vista  de  que  todas  las  variables  estandarizadas  tienen  medias  iguales  a  cero  y  varianzas 
unitarias. 


Efecto  sobre  la  variable  dependiente  de  un  cambio 
unitario  en  mas  de  una  regresora 

Antes  de  continuar,  suponga  que  deseamos  averiguar  que  pasaria  con  la  tasa  de  mortalidad  infan¬ 
til  si  el  PIBPC  y  la  TAM  se  incrementaran  de  manera  simultanea.  Suponga  que  el  PIB  per  capita 
aumenta  un  dolar  y,  al  mismo  tiempo,  la  tasa  de  alfabetizacion  de  las  mujeres  aumenta  un  punto 
porcentual.  (',Cual  seria  el  efecto  de  este  cambio  simultaneo  en  la  tasa  de  mortalidad  infantil? 
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Para  averiguarlo,  solo  hay  que  multiplicar  los  coeficientes  del  P1BPC  y  la  TAM  por  los  cambios 
propuestos  y  sumar  los  terminos  resultantes.  En  el  ejemplo,  esto  da: 

-0.0056(1)  -  2.2316(1)  =  2.2372 


Es  decir,  como  resultado  de  este  cambio  simultaneo  en  el  P1BPC  y  la  TAM,  el  numero  de  muertes 
de  ninos  menores  de  5  anos  disminuirla  en  casi  2.24  muertes. 

En  terminos  mas  generales,  si  deseamos  conocer  el  efecto  total  sobre  la  variable  dependiente 
de  un  cambio  unitario  en  mas  de  una  regresora,  todo  lo  que  hay  que  hacer  es  multiplicar  los  co¬ 
eficientes  de  dichas  regresoras  por  los  cambios  propuestos  y  sumar  los  productos.  Observe  que  el 
termino  del  intercepto  no  interviene  en  estos  calculos.  (<,Por  que?) 


7.7  Regresion  simple  en  el  contexto  de  regresion  multiple: 
introduccion  al  sesgo  de  especificacion 


El  supuesto  (7.1.10)  del  MCRL  plantea  que  el  modelo  de  regresion  del  analisis  esta  “bien”  espe- 
cificado;  es  decir,  no  hay  sesgo  o  error  de  especificacion  (vease  algunos  comentarios  introducto- 
rios  en  el  capitulo  3).  Aunque  analizaremos  con  mas  detalle  el  tema  del  analisis  de  especificacion 
en  el  capitulo  13,  el  ejemplo  ilustrativo  de  la  seccion  anterior  da  una  oportunidad  no  solo  para 
entender  la  importancia  del  supuesto  (7.1.10),  sino  tambien  para  aclarar  de  manera  adicional  el 
significado  del  coeficiente  de  regresion  parcial  y  presentar  una  introduccion  formal  al  tema  del 
sesgo  de  especificacion. 

Suponga  que  (7.6. 1 )  es  el  modelo  “verdadero”  que  explica  el  comportamiento  de  la  mortalidad 
infantil  en  relacion  con  el  PIB  per  capita  y  la  tasa  de  alfabetizacion  de  las  mujeres  (TAM).  Tam¬ 
bien  suponga  que  se  hace  caso  omiso  de  la  TAM  y  que  se  estima  la  siguiente  regresion  simple: 

Yi  —  oq  +  0.2X21  +  U\i  (7.7.1) 


donde  Y=  MI  y  A2  =  PIBPC. 

Como  (7.6.1)  es  el  verdadero  modelo,  al  estimar  (7.7.1)  se  cometeria  un  error  de  especifica¬ 
cion,  el  cual  consiste  en  omitir  la  variable  A3,  la  tasa  de  alfabetizacion  de  las  mujeres.  Observe 
que  usamos  diferentes  simbolos  para  los  parametros  (las  alfas)  en  (7.7.1)  para  distinguirlas  de  los 
parametros  verdaderos  (las  betas)  dadas  en  (7.6.1). 

Ahora,  1,012  proporcionara  un  estimado  insesgado  del  verdadero  impacto  de  PIBPC,  dado  por 
P2  en  el  modelo  (7.6.1)?  En  otras  palabras,  {,£( 012 )  =  fc,  donde  «2  es  el  valor  estimado  de  0:2?  Es 
decir,  ^el  coeficiente  del  PIBPC  en  (7.7.1)  suministra  una  estimacion  insesgada  del  verdadero  im¬ 
pacto  del  PIBPC  sobre  la  MI,  si  sabemos  que  se  omitio  la  variable  A3  (TAM)  del  modelo?  Como 
se  puede  sospechar,  en  general  (*2  no  sera  un  estimador  insesgado  del  verdadero  fn-  Para  tener 
una  ligera  idea  del  sesgo,  hagamos  la  regresion  (7.7.1),  la  cual  da  los  siguientes  resultados: 


TM,  =  157.4244  -  0.01 14  PIBPC, 
ee  =  (9.8455)  (0.0032)  r2  =  0.1662 


(7.7.2) 


Observe  varias  cosas  respecto  de  esta  regresion  en  comparacion  con  la  regresion  multiple 
“verdadera”  (7.6.1): 

1.  En  terminos  absolutos  (es  decir,  omitiendo  el  signo),  el  coeficiente  del  PIBPC  se  incremento 
de  0.0056  a  0.01 14,  casi  el  doble. 
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2.  Los  errores  estandar  son  diferentes. 

3.  Los  valores  del  intercepto  son  distintos. 

4.  Los  valores  r2  son  muy  distintos,  aunque,  por  lo  general,  conforme  aumenta  el  numero  de 
regresoras  en  el  modelo,  se  incrementan  los  valores  r2. 

Ahora  suponga  que  se  hace  la  regresion  de  la  mortalidad  infantil  respecto  de  la  tasa  de  alfabe- 
tismo  en  las  mujeres  sin  tener  en  cuenta  la  influencia  del  P1BPC.  Se  obtiene  lo  siguiente: 


TM,  =  263.8635  -  2.3905  TAM,- 

(7.7.3) 

ee  =  (21.2249)  (0.2133)  r2  =  0.6696 

De  nuevo,  si  compara  los  resultados  de  esta  regresion  (mal  especificada)  con  la  regresion 
multiple  “verdadera”,  vera  que  son  distintos,  aunque  las  diferencias  en  este  caso  no  resultan  tan 
notables  como  en  la  regresion  (7.7.2). 

Lo  importante  es  estar  consciente  de  que  puede  haber  serias  consecuencias  si  se  elige  mal  un 
modelo.  Analizaremos  con  mas  detalle  este  punto  en  el  capitulo  13,  sobre  los  errores  de  especi- 
ficacion. 


7.8  R2  y  R2  ajustada 

Una  propiedad  importante  de  R 2  es  que  es  una  funcion  no  decreciente  del  numero  de  variables 
explicativas  o  de  regresoras  presentes  en  el  modelo;  a  medida  que  aumenta  el  numero  de  regre¬ 
soras,  R2  aumenta  casi  invariablemente  y  nunca  disminuye.  Planteado  de  otra  forma,  una  variable 
adicional  X no  reduce  R2.  Compare,  por  ejemplo,  la  regresion  (7.7.2)  o  la  (7.7.3)  con  la  (7.6.2). 
Para  ver  esto,  recuerde  la  definition  del  coeficiente  de  determinacion: 


R2 


SCI 

SCT 


=  1 


=  1  - 


SCR 

SCT 

£7 


(7.8.1) 


Ahora,  X7  es  independiente  del  numero  de  variables  X  en  el  modelo  porque  es  solo 
XX  Yt  —  Y)2.  SCR,  X  w2,  sin  embargo,  depende  del  numero  de  regresoras  presentes  en  el  modelo. 
Por  intuition,  es  claro  que,  a  medida  que  aumenta  el  numero  de  variables  X,  es  mas  probable  que 
disminuya  X  (al  men  os,  que  no  aumente);  por  tanto,  R2,  como  se  definio  en  (7.8.1),  aumenta. 
En  vista  de  esto,  al  comparar  dos  modelos  de  regresion  con  la  misma  variable  dependiente  pero 
un  numero  diferente  de  variables  X,  se  debe  tener  mucho  cuidado  al  escoger  el  modelo  con  la  R2 
mas  alta. 

Para  comparar  dos  terminos  R2  se  debe  tener  en  cuenta  el  numero  de  variables  X  presentes  en 
el  modelo.  Esto  se  verifica  con  facilidad  si  consideramos  un  coeficiente  de  determinacion  alterno, 
que  es  el  siguiente: 


X»2/(»  -( r) 

Xt,7(«  - 1) 


(7.8.2) 
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donde  k  =  el  numero  de  parametros  en  el  modelo  incluyendo  el  termino  de  intercepto.  (En  la 
regresion  con  tres  variables,  k  =  3.  qPor  que?)  R2  definida  asi  se  conoce  como  R2  ajustada, 
designada  por  R2.  El  termino  ajustado  significa  ajustado  por  los  gl  asociados  a  las  sumas  de  cua- 
drados  que  se  consideran  en  (7.8.1):  5D  tiene  n  —  k  gl  en  un  modelo  con  k  parametros,  el  cual 
incluye  el  termino  del  intercepto  y  J2  tiene  n  —  1  gl.  ((',Por  que?)  Para  el  caso  de  tres  variables, 
sabemos  que  tiene  w  —  3  gl. 

La  ecuacion  (7.8.2)  tambien  se  escribe  como 


R2  =  1  - 


S2 


(7.8.3) 


donde  ct2  es  la  varianza  residual,  un  estimador  insesgado  de  la  verdadera  a2,  y  es  la  varianza 
muestral  de  Y. 

Es  facil  ver  que  el  R2  y  el  R2  estan  relacionados  porque,  al  incluir  (7.8.1)  en  (7.8.2),  obte- 
nemos 


R2  =  1  -  (1  -  R2)- - \  (7.8.4) 

n  —  k 

Por  la  ecuacion  (7.8.4)  de  inmediato  se  comprende  que  1)  para  k  >  l,  R2  <  R2,  lo  cual  implica 
que,  a  medida  que  aumenta  el  numero  de  variables  X,  R2  ajustada  aumenta  menos  que  R2  no  ajus¬ 
tada;  y  que  2)  R2  puede  ser  negativa,  aunque  R2  es  necesariamente  no  negativa.10  En  caso  de  que 
R2  resulte  ser  negativa  en  una  aplicacion,  su  valor  se  toma  como  cero. 

<,Cual  R2  debe  utilizarse  en  la  practica?  Como  anota  Theil: 


. . .  es  una  buena  costumbre  utilizar  R2  en  lugar  de  R2  porque  R2  tiende  a  dar  una  imagen  demasiado 
optimista  del  ajuste  de  la  regresion,  en  particular  cuando  el  numero  de  variables  explicativas  no  es 
muy  pequeno  comparado  con  el  de  observaciones.11 


Pero  no  todos  comparten  la  opinion  de  Theil,  pues  no  ofrece  una  justificacion  teorica  general  para 
la  “superioridad”  de  R2.  Por  ejemplo,  Goldberger  argumenta  que  la  siguiente  R2,  denominada  R2 
modificada,  servira  igual.12 


R2  modificada  =  (1  —  k/n)R2  (7.8.5) 


Su  sugerencia  es  informar  sobre  R2,  n  y  k,  y  dejar  que  el  lector  elija  la  forma  de  ajustar  R2  con- 
siderando  n  y  k. 


10  Observe,  sin  embargo,  que  si  R2  =  1,  ft2  =  R2  =  1 .  Cuando  R2  =  0,  ft2  =  (1  -  k)/(n—  k),  en  cuyo  caso 
R2  es  negativa  si  k  >  1 . 

11  Henri  Theil,  Introduction  to  Econometrics,  Prentice-Hall,  Englewood  Cliffs,  Nueva  Jersey,  1 978,  p.  1  35. 

12  Arthur  S.  Goldberger,  A  Course  in  Econometrics,  Harvard  University  Press,  Cambridge,  Massachusetts, 

1 991 ,  p.  1  78.  Para  un  punto  de  vista  mas  crftico  de  R2,  vease  S.  Cameron,  "Why  is  the  R  Squared  Adjusted 
Reported?",  journal  of  Quantitative  Economics,  vol.  9,  num.  1,  enero  de  1 993,  pp.  1 83-1 86.  Argumenta  que 
"[R2]  NO  es  un  estadfstico  de  prueba  y  parece  que  no  hay  una  justificacion  intuitiva  clara  para  usarlo  como 
estadfstico  descriptivo.  Finalmente,  debe  quedar  claro  que  no  es  una  herramienta  eficaz  para  la  prevencion 
de  la  busqueda  exhaustiva  de  datos"  (p.  1 86). 
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A  pesar  de  esta  sugerencia,  es  la  R 2  ajustada,  como  aparece  en  (7.8.4),  la  que  se  utiliza  en  la 
mayorla  de  los  paquetes  estadisticos  junto  con  R2  convencional.  Se  aconseja  al  lector  tratar  R2 
como  cualquier  otro  estadistico  de  resumen. 

A  proposito,  para  la  regresion  sobre  la  mortalidad  infantil  (7.6.2),  el  lector  debe  verificar  que 
R2  es  0.6981,  pero  sin  olvidar  que  en  este  ejemplo  (n  -  1)  =  63  y  que  (n  -  k)  =  60.  Como  era  de 
esperarse,  R2  de  0.6981  es  menor  que  R2  de  0.7077 . 

Ademas  de  R2  y  R2  ajustada  como  medidas  de  bondad  de  ajuste,  a  menudo  se  utilizan  otros 
criterios  para  juzgar  la  bondad  de  un  modelo  de  regresion.  Dos  de  estos  son  el  criterio  de  infor- 
macion  de  Akaike  y  el  criterio  de  prediction  de  Amemiya,  con  los  cuales  se  escogen  modelos 
que  compiten.  Analizaremos  estos  criterios  cuando  veamos  el  problema  de  seleccion  de  mode¬ 
los  en  mayor  detalle  en  un  capitulo  posterior  (el  13). 


Comparacion  de  dos  valores  de  R2 

Es  de  crucial  importancia  senalar  que,  al  comparar  dos  modelos  con  base  en  el  coeficiente  de 
determinacion,  ajustado  o  no,  el  tamafio  de  la  muestra  ny  la  variable  dependiente  deben  ser  los 
mismos ;  las  variables  explicativas  pueden  adoptar  cualquier  forma.  Asi,  para  los  modelos 

In  Yi  =  fa  +  p2X2i  +  foX2i  +  Ui  (7.8.6) 

Yj  —  a  i  +  a2X2  i  +  a2X2i  +  Uj  (7.8.7) 

no  pueden  compararse  los  terminos  R2  calculados.  La  razon  es  la  siguiente:  por  definicion,  R2 
mide  la  proporcion  de  la  variacion  en  la  variable  dependiente  explicada  por  la(s)  variable(s) 
explicativa(s).  Por  consiguiente,  en  (7.8.6),  el  R1  mide  la  proporcion  de  la  variacion  en  In  Y  ex¬ 
plicada  por  X2  y  X2,  mientras  que  en  (7.8.7),  mide  la  proporcion  de  la  variacion  en  Y,  y  las  dos 
no  son  la  misma  variable:  Como  vimos  en  el  capitulo  6,  un  cambio  en  In  Y da  un  cambio  relativo 
o  proporcional  en  Y,  mientras  que  un  cambio  en  Y  da  un  cambio  absoluto.  Por  consiguiente, 
var  Yj  /var  Y,  no  es  igual  a  var  (In  7,) /var  (In  Yj);  es  decir,  los  dos  coeficientes  de  determinacion 
no  son  lo  mismo.13 

Entonces,  (',c6mo  comparar  las  R2  de  los  dos  modelos  cuando  la  regresada  no  esta  en  la  misma 
forma?  Para  responder,  consideremos  primero  un  ejemplo  numerico. 


13  De  la  definicion  de  R2,  sabemos  que 


1  SCR  E  “i 

TSS  £(/,  -  Y)2 

para  el  modelo  lineal  y 


J2(\n  Y;  -  In  Y)2 

para  el  modelo  log.  Como  los  denominadores  en  el  lado  derecho  de  estas  expresiones  son  diferentes,  no 
podemos  comparar  los  dos  terminos  R2  directamente. 

Como  se  muestra  en  el  ejemplo  7.2,  para  la  especificacion  lineal,  SCR  =  0.1491  (la  suma  de  cuadrados 
de  residuos  del  consumo  de  cafe),  y  para  la  especificacion  log-lineal,  SCR  =  0.0226  (la  suma  de  cuadrados  de 
residuos  del  logaritmo  del  consumo  de  cafe).  Estos  residuos  son  de  diferentes  ordenes  de  magnitud  y  por 
tanto  no  son  directamente  comparables. 
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EJEMPLO  7.2 

Consumo  de  cafe 
en  Estados  Unidos, 
1970-1980 


Considere  los  datos  de  la  tabla  7.1,  los  cuales  se  refieren  al  consumo  de  tazas  de  cafe  por  dfa 
( Y)  y  el  precio  al  menudeo  del  cafe  (X)  en  Estados  Unidos  de  1 970  a  1 980.  Al  aplicar  MCO  a  los 
datos  se  obtienen  los  siguientes  resultados  de  la  regresion: 

Yt=  2.6911  -  0.4795Xt  (7  8  8) 

ee  =  (0.1 21 6)  (0.1140)  SCR  =  0.1 491;  r2  =  0.6628 


Los  resultados  tienen  sentido  en  el  contexto  economico:  conforme  se  incrementa  el  precio  del 
cafe,  en  promedio,  su  consumo  disminuye  casi  media  taza  al  dfa.  El  valor  r2  de  mas  o  menos 
0.66  indica  que  el  precio  del  cafe  explica  casi  66%  de  la  variacion  en  el  consumo  del  cafe.  El 
lector  puede  verificar  con  facilidad  que  la  pendiente  del  coeficiente  es  estadfsticamente  signifi- 
cativa. 

A  partir  de  los  mismos  datos,  el  siguiente  modelo  de  doble  logaritmo,  o  elasticidad  constante, 
se  estima: 


ln/t  =  0.7774  -  0.2530  In  Xt 
ee  =  (0.01 52)  (0.0494)  SCR  =  0.0226;  r2  =  0.7448 

Como  es  un  modelo  de  doble  logaritmo,  el  coeficiente  de  la  pendiente  proporciona  un  estimado 
directo  del  coeficiente  de  elasticidad  del  precio.  En  el  ejemplo  presente,  indica  que  si  el  precio 
del  cafe  por  libra  se  incrementa  1%,  en  promedio,  su  consumo  diario  disminuye  casi  0.25%. 
Recuerde  que,  en  el  modelo  lineal  (7.8.8),  el  coeficiente  de  la  pendiente  solo  senala  la  tasa  de 
cambio  del  consumo  del  cafe  respecto  del  precio.  (^Como  estimara  la  elasticidad-precio  en  el 
modelo  lineal?)  El  valor  r2  de  casi  0.74  significa  que  74%  de  la  variacion  en  el  logaritmo  de  la 
demanda  de  cafe  se  explica  por  la  variacion  en  el  logaritmo  del  precio  del  cafe. 

Como  el  valor  r2  (0.6628)  del  modelo  lineal  es  menor  que  el  valor  r2  de  0.7448  del  modelo 
lineal  logarftmico,  se  presenta  la  tentacion  de  elegir  este  ultimo  modelo  debido  al  alto  valor  de 
r2.  Sin  embargo,  por  las  razones  expresadas,  no  es  posible  hacerlo  asf.  No  obstante,  si  desea 
comparar  ambos  valores  r2,  puede  proceder  de  la  siguiente  manera: 


TABLA  7.1 

Consumo  de  cafe  en 
Estados  Unidos  (F) 
respecto  del  precio  pro¬ 
medio  real  al  menudeo 
(20,*  1970-1980 

Fuente:  Los  datos  de  Y  provie- 
nen  del  Summary  of  National 
Coffee  Drinking  Study ,  Data 
Group,  Elkins  Park,  Pensilva- 
nia,  1981,  y  los  datos  sobre  X 
nominal  (es  decir,  X  en  precios 
corrientes),  de  Nielsen  Food 
Index ,  A.  C.  Nielsen,  Nueva 
York,  1981. 

El  autor  esta  en  deuda  con 
Scott  E.  Sandberg  por  la  recopi- 
lacion  de  los  datos. 


r, 

Tazas  diarias 

X, 

Ano 

por  persona 

$  por  libra 

1970 

2.57 

0.77 

1971 

2.50 

0.74 

1972 

2.35 

0.72 

1973 

2.30 

0.73 

1974 

2.25 

0.76 

1975 

2.20 

0.75 

1976 

2.11 

1.08 

1977 

1.94 

1.81 

1978 

1.97 

1.39 

1979 

2.06 

1.20 

1980 

2.02 

1.17 

*Nota:  El  precio  nominal  se  dividio  entre  el  IPC  para  alimentos  y  bebidas,  1967  =  100. 
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1 .  Obtenga  InY)  de  (7.8.9)  para  cada  observacion;  es  decir,  encuentre  el  valor  estimado  de  cada 
observacion  a  partir  de  este  modelo.  Tome  el  antilogaritmo  de  esos  valores  y  despues  calcule 
r2  entre  dichos  valores  del  antilogaritmo  y  la  verdadera  Yt  de  la  manera  senalada  por  la  ecua¬ 
cion  (3.5.14).  Este  valor  r2  es  comparable  con  el  valor  r2  del  modelo  lineal  (7.8.8). 

2.  Otra  forma  es  suponer  que  todos  los  valores  Y  son  positivos,  en  cuyo  caso  calcule  los  loga- 
ritmos  de  los  valores  Y,  In  Y.  Obtenga  los  valores  estimados  Y,  Ytl  del  modelo  lineal  (7.8.8), 
calcule  los  logaritmos  de  dichos  valores  estimados  Y (es  decir.  In  Yt )  y  calcule  la  r2  entre  (In  Yt ) 
y  (In  Yt )  como  en  la  ecuacion  (3.5.14).  Este  valor  r2  es  comparable  con  el  valor  r2  obtenido 
mediante  (7.8.9). 

Para  el  ejemplo  del  cafe,  en  la  tabla  7.2  se  presentan  los  datos  originales  necesarios  para 
calcular  las  r2  comparables.  A  fin  de  comparar  el  valor  r2  del  modelo  lineal  (7.8.8)  con  el  de 
(7.8.9),  primero  obtenemos  el  logaritmo  de  ( Yt )  [dado  en  la  columna  (6)  de  la  tabla  7.2],  luego 
calculamos  el  logaritmo  de  los  valores  reales  Y  [dados  en  la  columna  (5)  de  la  tabla]  y  por  ulti¬ 
mo  calculamos  r2  entre  estos  dos  conjuntos  de  valores  mediante  la  ecuacion  (3.5.14).  El  resul- 
tado  es  un  valor  r2  de  0.6779,  el  cual  ahora  se  puede  comparar  con  el  valor  r2  de  0.7448  del 
modelo  log-lineal.  La  diferencia  entre  ambos  valores  r2  es  aproximadamente  0.07. 

Por  otra  parte,  si  deseamos  comparar  el  valor  r2  del  modelo  log-lineal  con  el  obtenido  del 
modelo  lineal,  estimamos  In  Yt  para  cada  observacion  de  (7.8.9)  [dadas  en  la  columna  (3)  de  la 
tabla],  obtenemos  sus  valores  antilog  [dados  en  la  columna  (4)  de  la  tabla]  y  por  ultimo  cal¬ 
culamos  r2  entre  estos  valores  antilog  y  los  valores  reales  de  Y  observados  mediante  la  formula 
(3.5.1 4).  Esto  da  a  r2  un  valor  de  0.71 87,  el  cual  es  un  poco  superior  al  valor  obtenido  del  mo¬ 
delo  lineal  (7.8.8)  de  0.6628. 

Con  cualquier  metodo,  parece  que  el  modelo  log-lineal  ofrece  un  ajuste  ligeramente  mejor. 


TABLA  7.2 

Datos  basieos  para 
comparar  dos  valores 
de  R2 

Ano 

Yt 

(1) 

Yt 

(2) 

InKf 

(3) 

Antilog  de 

InV't 

(4) 

In  Yt 
(5) 

lp  (Yd 
(6) 

1970 

2.57 

2.321887 

0.843555 

2.324616 

0.943906 

0.842380 

1971 

2.50 

2.336272 

0.853611 

2.348111 

0.916291 

0.848557 

1972 

2.35 

2.345863 

0.860544 

2.364447 

0.854415 

0.852653 

1973 

2.30 

2.341068 

0.857054 

2.356209 

0.832909 

0.850607 

1974 

2.25 

2.326682 

0.846863 

2.332318 

0.810930 

0.844443 

1975 

2.20 

2.331477 

0.850214 

2.340149 

0.788457 

0.846502 

1976 

2.11 

2.173233 

0.757943 

2.133882 

0.746688 

0.776216 

1977 

1.94 

1.823176 

0.627279 

1.872508 

0.662688 

0.600580 

1978 

1.97 

2.024579 

0.694089 

2.001884 

0.678034 

0.705362 

1979 

2.06 

2.115689 

0.731282 

2.077742 

0.722706 

0.749381 

1980 

2.02 

2.130075 

0.737688 

2.091096 

0.703098 

0.756157 

Notas:  Columna  (1):  Valores  reales  de  Y  de  la  tabla  7.1. 

Columna  (2):  Valores  estimados  de  Y  del  modelo  lineal  (7.8.8). 
Columna  (3):  Valores  estimados  de  log  Y  del  modelo  doble-log  (7.8.9). 
Columna  (4):  Antilog  de  valores  de  la  columna  (3). 

Columna  (5):  Valores  log  de  Y  en  la  columna  (1). 

Columna  (6):  Valores  log  de  ft  en  la  columna  (2). 
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Asignacion  de  R2  entre  regresoras 

Retomemos  el  ejemplo  de  la  mortalidad  infantil.  Vimos,  con  base  en  (7.6.2),  que  las  dos  regre¬ 
soras,  PIBPC  y  TAM,  explican  0.7077  o  70.77%  de  la  variacion  de  la  mortalidad  infantil.  Pero 
ahora  considere  la  regresion  (7.7.2),  donde  se  elimino  la  variable  TAM  y  como  consecuencia  el 
valor  r 2  disminuyo  hasta  0.1662.  <;Lo  anterior  significa  que  la  diferencia  en  el  valor  r2  de  0.5415 
(0.7077  —  0. 1662)  se  atribuye  a  la  variable  omitida,  TAM?  Por  otro  lado,  si  considera  la  regresion 
(7.7.3)  en  la  que  se  quito  la  variable  PIB,  el  valor  r2  disminuye  hasta  0.6696.  ^Significa  que  la 
diferencia  en  el  valor  r2  de  0.0381  (0.7077  —  0.6696)  se  debe  a  la  variable  omitida,  PIBPC? 

Por  tanto,  la  pregunta  es:  ^podcmos  asignar  la  R2  multiple  de  0.7077  entre  las  dos  regreso¬ 
ras,  PIBPC  y  TAM,  de  esta  forma?  Por  desgracia,  no,  pues  la  asignacion  depende  del  orden  de 
introduction  de  las  regresoras,  como  acabamos  de  ilustrar.  Parte  de  este  problema  radica  en  que 
las  dos  regresoras  estan  correlacionadas,  pues  el  coeficiente  de  correlation  entre  ambas  es  igual 
a  0.2685  (verifique  a  partir  de  los  datos  proporcionados  en  la  tabla  6.4).  En  la  mayor  parte  del 
trabajo  con  varias  regresoras,  la  correlacion  entre  ambas  constituye  un  problema  comun.  Por 
supuesto,  dicho  problema  seria  mucho  mas  grave  si  existiese  una  perfecta  colinealidad  entre  las 
regresoras. 

El  mejor  consejo  practico  es  que  no  tiene  mucho  sentido  tratar  de  asignar  el  valor  R2  a  sus 
regresoras  constituyentes. 


El  "juego"  de  maximizar  R2 

Para  concluir  esta  section  vale  la  pena  una  advertencia:  algunas  veces,  los  investigadores  intentan 
maximizar  R2,  es  decir,  escogen  el  modelo  que  da  la  R2  mas  elevada.  Pero  esto  puede  ser  peli- 
groso,  pues,  en  el  analisis  de  regresion,  el  objetivo  no  es  obtener  una  R2  elevada  per  se,  sino  mas 
bien  obtener  estimados  confiables  de  los  verdaderos  coeficientes  de  regresion  poblacional  que 
permitan  realizar  inferencia  estadistica  sobre  ellos.  En  el  analisis  empirico  no  es  inusual  obtener 
una  R2  muy  elevada,  sino  descubrir  que  algunos  de  los  coeficientes  de  regresion  no  son  estadisti- 
camente  significativos  o  muestran  signos  contrarios  a  los  esperados  a  priori.  Por  consiguiente,  el 
investigador  debe  preocuparse  mas  por  la  pertinencia  logica  o  teorica  de  las  variables  explicativas 
para  la  variable  dependiente  y  por  su  significancia  estadistica.  Si  en  este  proceso  obtenemos  una 
R2  elevada,  muy  bien;  por  otra  parte,  si  R2  es  baja,  esto  no  significa  que  el  modelo  sea  necesa- 
riamente  malo.14 

De  hecho  Goldberger,  quien  es  muy  critico  sobre  el  papel  de  R1,  afirmo: 

Desde  nuestra  perspectiva,  R2  tiene  un  papel  muy  modesto  en  el  analisis  de  regresion,  y  es  una 
medida  de  la  bondad  del  ajuste  de  una  regresion  lineal  por  MC  [minimos  cuadrados]  muestral  en 
un  cuerpo  de  datos.  Nada  en  el  modelo  de  RC  [MCRL]  exige  que  R2  sea  elevada.  Por  tanto,  una  R2 
elevada  no  es  evidencia  en  favor  del  modelo  y  una  R2  baja  no  es  evidencia  en  su  contra. 

En  realidad,  lo  mas  importante  sobre  R2  es  que  no  es  importante  en  el  modelo  de  RC.  El  modelo 
de  RC  tiene  que  ver  con  parametros  en  una  poblacion,  no  con  la  bondad  de  ajuste  en  la  muestra... 


14  Algunos  autores  desearfan  reducir  el  acento  en  el  uso  de  ft 2  como  medida  de  bondad  del  ajuste,  al  igual 
que  para  comparar  dos  o  mas  valores  de  ft2.  Vease  Christopher  H.  Achen,  Interpreting  and  Using  Regres¬ 
sion,  Sage  Publications,  Beverly  Hills,  California,  1982,  pp.  58-67,  y  C.  Granger  y  P.  Newbold,  "ft2  and  the 
Transformation  of  Regression  Variables",  journal  of  Econometrics,  vol.  4,  1 976,  pp.  205-21 0.  A  proposito,  la 
practica  de  seleccionar  un  modelo  con  base  en  la  ft2  mas  elevada,  una  especie  de  busqueda  exhaustiva,  in¬ 
troduce  lo  que  se  conoce  como  sesgo  de  preprueba,  que  puede  destruir  algunas  propiedades  de  los  esti- 
madores  de  MCO  del  modelo  clasico  de  regresion  lineal.  Sobre  este  tema,  el  lector  puede  consultar  George 
G.  Judge,  Carter  R.  Hill,  William  E.  Griffiths,  Helmut  Lutkepohl  y  Tsoun-Chao  Lee,  Introduction  to  the  Theory 
and  Practice  of  Econometrics,  John  Wiley,  Nueva  York,  1 982,  capftulo  21 . 
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Si  se  insiste  en  una  medida  del  exito  predictivo  (o  mas  bien  el  fracaso),  bastarla  cr2:  despues  de  todo, 
el  parametro  a1  es  el  error  de  prediccion  esperado  al  cuadrado  que  resultarla  si  se  empleara  la  FEC 
[FRP]  poblacional  como  predictora.  Esto  es,  el  error  estandar  de  prediccion  elevado  al  cuadrado  para 
valores  relevantes  de  x  [regresoras]  puede  ser  informativo.15 


7.9  La  funcion  de  produccion  Cobb-Douglas: 
mas  sobre  la  forma  funcional 


En  la  seccion  6.4  demostramos  como  convertir,  mediante  transformaciones  apropiadas,  las  rela- 
ciones  no  lineales  en  relaciones  lineales,  de  forma  que  se  facilite  trabajar  dentro  del  marco  del 
MCRL.  Las  diversas  transformaciones  analizadas  alii  en  el  contexto  del  caso  de  dos  variables  se 
amplian  sin  dificultad  a  los  modelos  de  regresion  multiple.  En  esta  seccion  demostramos  estas 
transformaciones  con  una  extension  multivariada  del  modelo  log-lineal  de  dos  variables;  hay 
mas  en  los  ejercicios  y  en  los  ejemplos  ilustrativos  en  el  resto  de  este  libro.  El  ejemplo  especifico 
es  la  conocida  funcion  de  produccion  Cobb-Douglas  de  la  teoria  de  produccion. 

La  funcion  de  produccion  Cobb-Douglas,  en  su  forma  estocastica,  se  expresa  como 

Yi  =  PiX%X%eu<  (7.9.1) 


donde  Y  —  produccion 

X2  —  insumo  trabajo 
Xt,  —  insumo  capital 
u  —  termino  de  perturbacion  estocastica 
e  —  base  del  logaritmo  natural 

De  la  ecuacion  (7.9.1)  es  claro  que  la  relacion  entre  la  produccion  y  los  dos  insumos  es  no 
lineal.  Sin  embargo,  si  transformamos  este  modelo,  mediante  la  funcion  logaritmo,  tenemos: 

In  Yi  —\nfi\-\-  P2  I11X2 i  +  P2  InX-j ,  +  ul 

(7.9.2) 

—  Po  +  Pi  In  X2 i  +  Pi  In  Xu  +  u  j 

donde  Po  =  In  P\. 

Escrito  de  esta  forma,  el  modelo  es  lineal  en  los  parametros  Po,  P2  y  Pi,  y  por  consiguiente  es 
un  modelo  de  regresion  lineal.  Observe,  sin  embargo,  que  es  no  lineal  en  las  variables  Yy  X,  aun- 
que  si  lo  es  en  sus  logaritmos.  En  resumen,  (7.9.2)  es  un  modelo  log-log,  doble-log  o  log-lineal, 
el  equivalente  en  la  regresion  multiple  al  modelo  log-lineal  con  dos  variables  (6.5.3). 

Las  propiedades  de  la  funcion  de  produccion  Cobb-Douglas  son  bien  conocidas: 

1.  P2  es  la  elasticidad  (parcial)  de  la  produccion  respecto  del  insumo  trabajo,  es  decir,  mide 
el  cambio  porcentual  en  la  produccion  debido  a  una  variacion  de  1%  en  el  insumo  trabajo,  con  el 
insumo  capital  constante  (vease  el  ejercicio  7.9). 

2.  De  igual  forma,  Pi  es  la  elasticidad  (parcial)  de  la  produccion  respecto  del  insumo  capital, 
con  el  insumo  trabajo  constante. 

3.  La  suma  (P2  +  Pi)  da  informacion  sobre  los  rendimientos  a  escala,  es  decir,  la  respuesta  de 
la  produccion  a  un  cambio  proporcional  en  los  insumos.  Si  esta  suma  es  1,  existen  rendimientos 
constantes  a  escala,  es  decir,  la  duplicacion  de  los  insumos  duplica  la  produccion,  la  triplicacion 


15  Arthur  S.  Goldberger,  op.  cit.,  pp.  1  77-1  78. 
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de  los  insumos  la  triplica,  y  asi  sucesivamente.  Si  la  suma  es  menor  que  1,  existen  rendimientos 
decrecientes  a  escala:  al  duplicar  los  insumos,  la  produccion  crece  en  menos  del  doble.  Por 
ultimo,  si  la  suma  es  mayor  que  1,  hay  rendimientos  crecientes  a  escala',  la  duplicacion  de  los 
insumos  aumenta  la  produccion  en  mas  del  doble. 

Antes  de  continuar,  observe  que  siempre  que  se  tenga  un  modelo  de  regresion  log-lineal  con 
cualquier  numero  de  variables,  el  coeficiente  de  cada  variable  X  mide  la  elasticidad  (parcial)  de 
la  variable  dependiente  Y  respecto  de  esa  variable.  Asi,  si  se  tiene  un  modelo  log-lineal  con  k 
variables: 


In  Yj  —  Pq  +  p2  1  ttX2i  +  Pi  In  Xy  +  •  ■  ■  +  Pk  In  Xki  +  i/,-  (7.9. 3) 

cada  uno  de  los  coeficientes  de  regresion  (parcial),  P2  hasta  Pk,  es  la  elasticidad  (parcial)  de  Y 
respecto  de  las  variables^  hasta  A*. 16 


EJEMPLO  7.3 

Valor  agregado, 
boras  de  mano  de 
obra  y  aportacion 
de  capital  en  el  sec¬ 
tor  manufacturero 


Para  ilustrar  la  funcion  de  produccion  Cobb-Douglas  se  obtuvieron  los  datos  de  la  tabla  7.3, 
referentes  al  sector  manufacturero  de  los  50  estados  de  Estados  Unidos  y  Washington,  D.C., 
para  2005. 

Si  el  modelo  (7.9.2)  satisface  los  supuestos  del  modelo  clasico  de  regresion  lineal,17  obte- 
nemos  la  siguiente  regresion  por  el  metodo  de  MCO  (vease  el  listado  de  computadora  en  el 
apendice  7 A,  seccion  7 A. 5): 


TABLA  7.3 

Valor  agregado,  horas 

Produccion 

Insumo 
mano  de  obra 

Insumo  capital 
Inversion 

de  mano  de  obra  y 
aportacion  de  capital 
en  el  sector  manufac- 

Area 

Valor  agregado 
(miles  de  dolares) 

V 

Horas  de  trabajo 
(miles) 

X2 

de  capital 
(miles  de  dolares) 
X3 

turero  de  Estados  Uni- 

dos,  2005 

Alabama 

38  372  840 

424  471 

2  689  076 

Alaska 

1  805  427 

19  895 

57  997 

Fuente:  2005  Annual  Survey 
of  Manufacturers,  Sector  3 1 : 
Estadisticas  complementarias 
de  Estados  Unidos. 

Arizona 

Arkansas 

California 

23  736  129 

26  981  983 

217  546  032 

206  893 

304  055 

1  809  756 

2  308  272 

1  376  235 

13  554  116 

Colorado 

19  462  751 

180  366 

1  790  751 

Connecticut 

28  972  772 

224  267 

1  210  229 

Delaware 

14  313  157 

54  455 

421  064 

Distrito  de  Columbia 

159  921 

2  029 

7  188 

Florida 

47  289  846 

471  211 

2  761  281 

Georgia 

63  015  125 

659  379 

3  540  475 

Hawaii 

1  809  052 

17  528 

146  371 

Idaho 

10  511  786 

75  414 

848  220 

Illinois 

105  324  866 

963 156 

5  870  409 

Indiana 

90  120  459 

835  083 

5  832  503 

Iowa 

39  079  550 

336  159 

1  795  976 

Kansas 

22  826  760 

246  1 44 

1  595  118 

Kentucky 

38  686  340 

384  484 

2  503  693 

Louisiana 

69  910  555 

216  149 

4  726  625 

16  Para  ver  esto,  diferencie  parcialmente  la  ecuacion  (7.9.3)  respecto  del  log  de  cada  variable  X.  Por  consi 
guiente,  3  In  Y/d  In  X2  =  {SY  /dX^Xi/Y)  =  fo  que,  por  definicion,  es  la  elasticidad  de  Y  respecto  de  X2  y 
9  In  Y/d  In  X3  =  (dY/dX/)(Xi/Y)  =  fty  que  es  la  elasticidad  de  Y  respecto  de  X3,  y  as!  sucesivamente. 

17  Observe  que  en  la  funcion  de  produccion  Cobb-Douglas  (7.9.1)  se  presento  el  termino  de  error  esto- 
castico  en  una  forma  especial  que,  en  la  transformacion  logaritmica  resultante,  ingrese  en  la  forma  lineal 
usual.  Sobre  este  tema,  vease  la  seccion  6.9. 
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Maine 

7  856  947 

82  021 

415  131 

Maryland 

21  352  966 

1  74  855 

1  729  1 1 6 

Massachusetts 

46  044  292 

355  701 

2  706  065 

Michigan 

92  335  528 

943  298 

5  294  356 

Minnesota 

48  304  274 

456  553 

2  833  525 

Mississippi 

17  207  903 

267  806 

1  212  281 

Missouri 

47  340  157 

439  427 

2  404  1 22 

Montana 

2  644  567 

24  167 

334  008 

Nebraska 

14  650  080 

163  637 

627  806 

Nevada 

7  290  360 

59  737 

522  335 

New  Hampshire 

9  188  322 

96  106 

507  488 

New  Jersey 

51  298  516 

407  076 

3  295  056 

New  Mexico 

20  401  410 

43  079 

404  749 

New  York 

87  756  129 

727 177 

4  260  353 

North  Carolina 

101  268  432 

820  01  3 

4  086  558 

North  Dakota 

3  556  025 

34  723 

1  84  700 

Ohio 

124  986  166 

1  1  74  540 

6  301  421 

Oklahoma 

20  451  196 

201  284 

1  327  353 

Oregon 

34  808  109 

257  820 

1  456  683 

Pennsylvania 

104  858  322 

944  998 

5  896  392 

Rhode  Island 

6  541  356 

68  987 

297  618 

South  Carolina 

37  668  126 

400  317 

2  500  071 

South  Dakota 

4  988  905 

56  524 

311  251 

Tennessee 

62  828  100 

582  241 

4  126  465 

Texas 

172  960  157 

1  120  382 

11  588  283 

Utah 

15  702  637 

150  030 

762  671 

Vermont 

5  418  786 

48  134 

276  293 

Virginia 

49  166  991 

425  346 

2  731  669 

Washington 

46  164  427 

313  279 

1  945  860 

West  Virginia 

9  185  967 

89  639 

685  587 

Wisconsin 

66  964  978 

694  628 

3  902  823 

Wyoming 

2  979  475 

15  221 

361  536 

In  V7  =  3.8876  +  0.4683lnX2,  +  0.521  3lnX3, 

(0.3962)  (0.0989)  (0.0969) 

t=  (9.81 15)  (4.7342)  (5.3803)  (7.9.4) 

R2=  0.9642  gl  =  48 
R2  =  0.9627 

De  la  ecuacion  (7.9.4),  vemos  que,  en  el  sector  manufacturero  de  Estados  Unidos  durante 
2005,  las  elasticidades  de  la  produccion  respecto  del  trabajo  y  el  capital  fueron  0.4683  y  0.521  3, 
respectivamente.  En  otras  palabras,  en  los  50  estados  de  Estados  Unidos  y  el  Distrito  de  Co¬ 
lumbia,  manteniendo  constante  el  insumo  capital,  un  incremento  de  1%  en  el  insumo  trabajo 
provoco,  en  promedio,  un  incremento  de  cerca  de  0.47%  en  la  produccion.  En  forma  similar, 
manteniendo  constante  el  insumo  trabajo,  un  incremento  de  1%  en  el  insumo  capital  genera, 
en  promedio,  un  incremento  de  cerca  de  0.52%  en  la  produccion.  Sumamos  las  dos  elasti¬ 
cidades  de  la  produccion  y  obtenemos  0.99,  que  da  el  valor  del  parametro  de  rendimientos 
a  escala.  Como  es  evidente,  el  sector  manufacturero  de  los  50  estados  de  Estados  Unidos  y  el 
Distrito  de  Columbia  se  caracterizo  por  rendimientos  constantes  a  escala.18 

Desde  el  punto  de  vista  puramente  estadfstico,  la  linea  de  regresion  estimada  se  ajusta  muy 
bien  a  los  datos.  El  valor  R2  de  0.9642  significa  que  cerca  de  96%  de  la  variacion  en  el  (log  de 
la)  produccion  se  explica  por  el  (log  del)  trabajo  y  el  (log  del)  capital.  En  el  capftulo  8  veremos 
como  utilizar  los  errores  estandar  estimados  para  probar  hipotesis  sobre  los  "verdaderos"  valores 
de  los  parametros  de  la  funcion  de  produccion  Cobb-Douglas  en  el  sector  manufacturero  de  la 
economfa  estadounidense. 
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7.10  Modelos  de  regresion  polinomial 


Ahora  consideraremos  una  clase  de  modelos  de  regresion  multiple,  los  modelos  de  regresion 
polinomial,  de  amplio  uso  en  la  investigation  econometrica  relacionada  con  funciones  de  costo 
y  de  produccion.  A1  introducir  estos  modelos,  ampliamos  la  gama  de  modelos  a  todos  los  que  se 
aplica  facilmente  el  modelo  clasico  de  regresion  lineal. 

Para  ordenar  las  ideas,  considere  la  figura  7.1  que  relaciona  el  costo  marginal  (CM)  de  corto 
plazo  de  la  produccion  de  un  bien  (7)  con  el  nivel  de  su  produccion  ( X ).  La  curva  de  CM  de  la 
figura,  la  curva  con  forma  de  U  de  los  libros  de  texto,  muestra  que  la  relacion  entre  CM  y  pro¬ 
duccion  es  no  lineal.  Si  se  cuantificara  esta  relacion  a  partir  de  los  puntos  dispersos  dados,  (;c6mo 
se  haria?  En  otras  palabras,  /,que  tipo  de  modelo  econometrico  expresa  la  naturaleza  primero 
decreciente  y  luego  creciente  del  costo  marginal? 

Geometricamente,  la  curva  CM  de  la  figura  7.1  representa  una  parabola.  Matematicamente, 
la  parabola  esta  representada  por  la  siguiente  ecuacion: 

Y  =  p  o  +  faX  +  lhX2  (7.10.1) 

que  se  denomina  una  funcion  cuadratica  o,  mas  generalmente,  un  polinomio  de  segundo  grado 
en  la  variable  X;  la  mayor  potencia  de  X  representa  el  grado  del  polinomio  (si  se  agregara  X3  a  la 
funcion  anterior,  seria  un  polinomio  de  tercer  grado,  y  asi  sucesivamente). 

La  version  estocastica  de  (7.10.1)  se  escribe  asi: 

Y,  =  A)  +  PiXi  +  p2Xf  +  Ui  (7.10.2) 

que  se  denomina  regresion  polinomial  de  segundo  grado. 

La  regresion  polinomial  de  grado  k  general  puede  escribirse  asi: 

Yi=0  o  +  PiXi  +  p2X?  +  ■  ■  ■  +  foX\  +  m  (7.10.3) 

Tenga  en  cuenta  que,  en  estos  tipos  de  regresiones  polinomiales,  solo  hay  una  variable  explicativa 
al  lado  derecho,  pero  aparece  elevada  a  distintas  potencias,  convirtiendolas  en  modelos  de  regre¬ 
sion  multiple.  A  proposito,  observe  que  si  se  supuso  que  X,  es  fija  o  no  estocastica,  los  terminos 
de  Xj  elevados  a  alguna  potencia  tambien  se  hacen  fijos  o  no  estocasticos. 

6Prcscntan  estos  modelos  problemas  especiales  de  estimacion?  Como  el  polinomio  de  se¬ 
gundo  grado  (7.10.2)  o  el  polinomio  de  grado  k  (7.10.13)  son  lineales  en  los  parametros,  las  /J 
se  estiman  mediante  las  metodologlas  usuales  de  MCO  o  MV  Pero,  /.q  Lie  sucede  con  el  problema 


FIGURA  7.1 

Curva  de  costo  marginal 
en  forma  de  U. 


Y 


Produccion 
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de  colinealidad?  £ Acaso  las  diferentes  X  no  estan  altamente  correlacionadas  puesto  que  todas  son 
potencias  de  XI  Si,  pero  recuerde  que  todos  los  terminos  como  X2,  X 3,  X4,  etc.,  son  funciones 
no  lineales  de  X  y,  por  consiguiente,  en  terminos  estrictos,  no  violan  el  supuesto  de  no  multicoli- 
nealidad.  En  resumen,  es  posible  estimar  modelos  de  regresion  polinomial  mediante  las  tecnicas 
estudiadas  en  este  capitulo  sin  que  se  presenten  nuevos  problemas  de  estimacion. 


EJEMPLO  7.4 

Estimacion  de  la 
funcion  de  costo 
total 


Como  ejemplo  de  regresion  polinomial,  considere  los  datos  de  la  tabla  7.4  sobre  produccion 
de  un  bien  y  su  costo  de  produccion  total  en  el  corto  plazo.  ^Que  tipo  de  modelo  de  regre¬ 
sion  ajusta  estos  datos?  Para  este  fin,  trace  primero  el  diagrama  de  dispersion,  que  se  muestra 
en  la  figura  7.2. 

De  esta  figura  es  claro  que  la  relacion  entre  el  costo  total  y  la  produccion  semeja  una  curva 
en  forma  de  S  alargada;  observe  como  la  curva  de  costo  total  primero  aumenta  poco  a  poco  y 
luego  lo  hace  rapido,  como  lo  establece  la  conocida  ley  de  rendimientos  decrecientes.  Esta  forma 
de  S  de  la  curva  de  costo  total  se  representa  por  el  siguiente  polinomio  cubico  o  de  tercer  grado: 

Yi  =  Po  +  j8i  Xj  +  P2X2  +  P3X2  +  Uj  (7.10.4) 

donde  Y  =  costo  total  y  X  =  produccion. 

En  virtud  de  los  datos  de  la  tabla  7.4,  aplicamos  el  metodo  de  MCO  para  estimar  los  parame- 
tros  de  (7.10.4).  Pero,  antes  de  hacerlo,  vea  lo  que  la  teoria  economica  indica  sobre  la  funcion 
cubica  de  costo  de  corto  plazo  (7.10.4).  La  teoria  elemental  de  precios  muestra  que,  en  el  corto 
plazo,  las  curvas  de  costo  marginal  de  produccion  (CM)  y  de  costo  promedio  (CP)  en  general 
tienen  forma  de  U  (al  principio),  a  medida  que  la  produccion  aumenta  tanto  el  CM  como  el 
CP  decrecen,  pero,  despues  de  un  nivel  dado  de  produccion,  ambas  vuelven  a  aumentar,  de 
nuevo  como  consecuencia  de  la  ley  de  rendimientos  decrecientes.  Esto  se  aprecia  en  la  figura 
7.3  (vease  tambien  la  figura  7.1).  Y,  como  las  curvas  de  CM  y  de  CP  se  derivan  de  la  curva  de 
costo  total,  la  naturaleza  de  estas  curvas  en  forma  de  U  impone  algunas  restricciones  sobre  los 
parametros  de  la  curva  de  costo  total  (7.10.4).  De  hecho,  puede  mostrarse  que  los  parametros 


FIGURA  7.2  Curva  de  costo  total. 
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EJEMPLO  7.4 

(i continuation ) 


CM 


de  (7.10.4)  deben  satisfacer  las  siguientes  restricciones  si  se  desea  observar  las  curvas  de  costo 
marginal  y  promedio  de  corto  plazo  en  la  forma  tfpica  de  U:18 

1  •  /So,  /Si  y  >  0 

2.  /S2  <  0  (7.10.5) 

3.  >6|  <  3^/Jj 

Toda  esta  exposicion  teorica  puede  parecer  un  poco  tediosa.  Pero  este  conocimiento  es  en 
extremo  util  cuando  se  examinan  los  resultados  empfricos,  pues,  si  estos  no  concuerdan  con 
las  expectativas  a  priori,  entonces,  suponiendo  que  no  se  cometio  un  error  de  especificacion  (es 
decir,  que  se  escogio  el  modelo  erroneo),  se  tendra  que  modificar  la  teorfa,  o  buscar  una  nueva 
y  reiniciar  la  investigacion  empfrica  desde  el  principio.  Pero,  como  comentamos  en  la  introduc- 
cion,  esta  es  la  naturaleza  de  toda  investigacion  empfrica. 

Resultados  empfricos.  Cuando  la  regresion  polinomial  de  tercer  grado  se  ajusto  a  los  datos  de 
la  tabla  7.4,  obtuvimos  los  siguientes  resultados: 

?i  =  141.7667  +  63.4776X,  —  12.9615X?  +  0.9396X? 

(6.3753)  (4.7786)  (0.9857)  (0.0591)  R2  +  0.9983  (7.10.6) 

( Nota :  Las  cifras  entre  parentesis  son  los  errores  estandar  estimados.)  Aunque  examinaremos  la 
significancia  estadfstica  de  estos  resultados  en  el  siguiente  capftulo,  el  lector  puede  verificar  que 
corresponden  a  las  expectativas  teoricas  de  (7.1 0.5).  Como  ejercicio  para  el  lector  queda  la  tarea 
de  interpretar  la  regresion  (7.10.6). 


18  Vease  Alpha  C.  Chiang,  Fundamental  Methods  of  Mathematical  Economics,  3a.  ed.,  McGraw-Hill,  Nueva 
York,  1 984,  pp.  250-252. 
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EJEMPLO  7.5 

Tasa  de  crecimiento 
del  PIB  y  PIB  per 
capita  relativo  para 
2007  en  190 paises 
(en  miles  de  millo- 
nes  de  dolares  de 
2000) 


Fuente:  Indicadores  de  desarro- 
llo  mundial  del  Banco  Mundial, 
ajustados  a  la  base  de  2000,  y 
valores  estimados  y  proyecta- 
dos  obtenidos  por  el  Economic 
Research  Service 


Como  otro  ejemplo  economico  del  modelo  de  regresion  polinomial,  considere  los  siguientes 
resultados  de  regresion: 

TpTB/  =  5.5347  -  5.5788  PIBR  +  2.8378  PIBR2 
ee=  (0.2435)  (1.5995)  (1.4391)  (7.10.7) 

R2  =  0.1092  R2  ajs  =  0.0996 

donde  TPIB  =  tasa  de  crecimiento  del  PIB,  porcentaje  en  2007,  y  PIBR  =  PIB  per  capita  relativo 
en  2007  (porcentaje  del  PIB  per  capita  de  Estados  Unidos  en  2007).  La  R2  ajustada  (R2  ajs)  indica 
que,  despues  de  considerar  el  numero  de  regresoras,  el  modelo  solo  explica  alrededor  de  9.96% 
de  la  variacion  en  el  TPIB.  Incluso  la  R2  sin  ajustar  de  0.1 092  parece  baja.  Lo  anterior  puede  pare- 
cer  un  valor  muy  desalentador,  pero,  como  veremos  en  el  siguiente  capftulo,  tales  valores  bajos 
de  R2  suelen  encontrarse  en  datos  transversales  con  un  gran  numero  de  observaciones.  Ademas, 
incluso  una  R2  en  apariencia  baja  puede  ser  estadfsticamente  significativa  (es  decir,  distinta  de 
cero),  como  mostraremos  en  el  proximo  capftulo. 


*7.11  Coeficientes  de  correlacion  parcial 

Explication  de  los  coeficientes  de  correlacion  simple  y  parcial 

En  el  capltulo  3  presentamos  el  coeficiente  de  correlacion  r  como  medida  del  grado  de  asociacion 
lineal  entre  dos  variables.  Para  el  modelo  de  regresion  con  tres  variables  podemos  calcular  tres 
coeficientes  de  correlacion:  r\2  (correlacion  entre  Y  y  AT),  r\  3  (coeficiente  de  correlacion  entre 
Y  y  A3)  y  3  (coeficiente  de  correlacion  entre  AT  y  AT);  observe  que  el  subindice  1  representa 
a  Y  por  conveniencia  notacional.  Estos  coeficientes  de  correlacion  se  denominan  coeficientes  de 
correlacion  bruta  o  simple,  o  coeficientes  de  correlacion  de  orden  cero,  y  se  calculan  a  partir 
de  la  definicion  del  coeficiente  de  correlacion  dada  en  (3.5.13). 

Pero  consideremos  ahora  esta  interrogante:  ^podemos  decir  en  realidad  que  /'12  mide  el  “ver- 
dadero”  grado  de  asociacion  (lineal)  entre  Y  v  AT  cuando  existe  una  tercera  variable  X3  que 
puede  estar  asociada  a  ellas?  Esta  pregunta  es  analoga  a  la  siguiente:  suponga  que  el  verdadero 
modelo  de  regresion  es  (7.1.1)  pero  omitimos  del  modelo  la  variable  AT,  y  solo  hacemos  la  re¬ 
gresion  Y  sobre  X2  para  obtener  el  coeficiente  de  la  pendiente  de,  por  ejemplo,  b\  2.  pSera  igual 
este  coeficiente  al  verdadero  coeficiente  P2  si,  para  empezar,  se  estimara  el  modelo  (7.1.1)?  La 
respuesta  debe  ser  clara  a  partir  del  analisis  en  la  section  7.7.  En  general,  r\ 2  tal  vez  no  refleje 
el  verdadero  grado  de  asociacion  entre  Y  y  AT  en  presencia  de  A3.  De  hecho,  es  probable  que  de 
una  falsa  impresion  de  la  naturaleza  de  la  asociacion  entre  Y  y  AT,  como  demostraremos  en  breve. 
Por  consiguiente,  lo  que  se  necesita  es  un  coeficiente  de  correlacion  que  sea  independiente  de 
la  influencia,  si  hay  alguna,  de  Aj  sobre  X2  y  Y.  Dicho  coeficiente  de  correlacion  se  obtiene  y  se 
conoce  apropiadamente  como  coeficiente  de  correlacion  parcial.  En  cuanto  concepto,  es  similar 
al  coeficiente  de  regresion  parcial.  Definimos 

n  2.3  =  coeficiente  de  correlacion  parcial  entre  Y  y  AT,  manteniendo  A3  constante 

r\ 3.2  =  coeficiente  de  correlacion  parcial  entre  Y y  AT,  manteniendo  X2  constante 

/'23.1  =  coeficiente  de  correlacion  parcial  entre  AT  y  AT,  manteniendo  Y constante 
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Estas  correlaciones  parciales  se  obtienen  con  facilidad  a  partir  de  los  coeficientes  de  correlacion 
simples  o  de  orden  cero,  de  la  siguiente  forma  (para  las  pruebas,  vease  los  ejercicios):19 


''12.3 


''13.2  — 


''23.1  = 


r  12  -  ''l 3^23 


\Z(!  “  rn)  (1  -  rh) 
'~13  ~  ''l  2^23 

{( i-’-ao-'-y 

^23  ~  ''l  2^1  3 

7(1-''l22)(l-''l23) 


(7.11.1) 

(7.11.2) 

(7.11.3) 


Las  correlaciones  parciales  de  las  ecuaciones  (7.1 1.1)  a  (7.1 1.3)  se  denominan  coeficientes  de 
correlacion  de  primer  orden.  Por  orden  se  quiere  decir  el  niimero  de  subindices  secundarios. 
Asi  /'i 2.34  seria  el  coeficiente  de  correlacion  de  orden  dos,  r\ 2.345  seria  el  coeficiente  de  corre¬ 
lacion  de  orden  tres,  y  asi  sucesivamente.  Como  ya  vimos,  7-12,  ''13  y  las  siguientes  se  denominan 
correlaciones  simples  o  de  orden  cero.  La  interpretacion  de  /'1 2.34,  por  ejemplo,  es  que  este  da 
el  coeficiente  de  correlacion  entre  Y  y  X2,  manteniendo  constantes  X3  y  X4. 


Interpretacion  de  los  coeficientes  de  correlacion 
simple  y  parcial 

En  el  caso  de  dos  variables,  la  r  simple  tenia  un  significado  directo:  media  el  grado  de  asociacion 
(lineal),  (mas  no  causal),  entre  la  variable  dependiente  Yy  la  variable  explicativaX.  Sin  embargo, 
una  vez  fuera  del  caso  de  dos  variables,  se  debe  prestar  cuidadosa  atencion  a  la  interpretacion  del 
coeficiente  de  correlacion  simple.  De  (7.11.1),  por  ejemplo,  observamos  lo  siguiente: 

1.  Aunque  r\2  =  0,  ri 2.3  no  sera  cero  a  menos  que  /'1 3  o  1-23,  o  ambos,  sean  cero. 

2.  Si  /'i2  =  0  y  /'i3  y  r? 3  son  diferentes  de  cero  y  tienen  el  mismo  signo,  7-12.3  sera  negativo, 
mientras  que  si  son  de  signos  opuestos,  sera  positivo.  Un  ejemplo  aclarara  este  punto.  Sea  Y  = 
rendimiento  del  cultivo,  X2  =  la  lluvia  y  X3  =  la  temperatura.  Suponga  que  r\ 2  =  0,  es  decir,  no 
hay  asociacion  entre  el  rendimiento  del  cultivo  y  la  lluvia.  Tenga  en  cuenta,  ademas,  que  r\ 3  es 
positiva  y  7-23  es  negativa.  Entonces,  como  lo  indica  (7.1 1.1),  7-12.3  sera  positivo;  es  decir,  con  la 
temperatura  constante,  existe  una  asociacion  positiva  entre  el  rendimiento  del  cultivo  y  la  lluvia. 
Sin  embargo,  este  resultado,  en  apariencia  paradojico,  no  es  sorprendente.  Como  la  temperatura 
X3  afecta  el  rendimiento  Y  y  tambien  afecta  la  lluvia  X2,  con  el  fin  de  encontrar  la  relacion  neta 
entre  rendimiento  del  cultivo  y  lluvia  se  debe  eliminar  la  influencia  de  la  “molesta”  variable  tem¬ 
peratura.  Este  ejemplo  muestra  que  el  coeficiente  de  correlacion  simple  puede  generar  resultados 
equivocados. 

3.  Los  terminos  7-12.3  Y  ''12  (y  comparaciones  similares)  no  necesitan  tener  el  mismo  signo. 

4.  En  el  caso  de  dos  variables  r2  se  encuentra  entre  0  y  1 .  La  misma  propiedad  se  cumple  para 
los  coeficientes  de  correlacion  parcial  al  cuadrado.  Asi,  el  lector  debe  verificar  que  es  posible 
obtener  la  siguiente  expresion  a  partir  de  (7.1 1.1): 

0  <  r22  +  r23  +7-33  -  27-127-137-23  <  1  (7.11.4) 


19  La  mayorfa  de  los  programas  de  computo  para  analisis  de  regresion  multiple  calculan  de  forma  rutinaria 
los  coeficientes  de  correlacion  simples;  por  tanto,  los  coeficientes  de  correlacion  parciales  se  obtienen  de 
modo  inmediato. 
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que  da  las  interrelaciones  entre  los  tres  coeficientes  de  correlacion  de  orden  cero.  Se  derivan 
expresiones  similares  de  las  ecuaciones  (7.1 1.2)  y  (7.1 1.3). 

5.  Suponga  que  r13  =  r23  =  0.  ^Significa  esto  que  rl2  tambien  es  cero?  La  respuesta  es  obvia 
y  se  desprende  de  (7. 1 1 .4).  El  hecho  de  que  Y y  X3  y  X2  y  X2  no  esten  correlacionadas  no  significa 
que  by  X2  no  lo  esten. 

A  proposito,  observe  que  la  expresion  r1 2 3 4 512.3  puede  denominarse  coeflciente  de  determina- 
cion  parcial  e  interpretarse  como  la  proporcion  de  la  variacion  en  Y  no  explicada  por  la  variable 
Xt,  que  se  explica  por  la  inclusion  de  X2  en  el  modelo  (vease  el  ejercicio  7.5).  Conceptualmente, 
es  semejante  a  R2. 


Antes  de  continuar  observe  las  siguientes  relaciones  entre  R2,  los  coeficientes  de  correlacion 
simple  y  los  coeficientes  de  correlacion  parcial: 

R1  r\2  +  r\3  “2rl  2^13^2  3 

1  -  rh, 

(7.11.5) 

R2=rl2  +  (\-rl2yx22 

(7.11.6) 

Rl=rl3  +  (!  ~  ru)  r\23 

(7.11.7) 

Para  terminar  esta  seccion,  considere  lo  siguiente:  Se  planted  antes  que  R2  no  disminuye 
si  se  introduce  una  variable  explicativa  adicional  en  el  modelo,  lo  cual  se  aprecia  con  claridad 
de  (7.11.6).  Esta  ecuacion  afirma  que  la  proporcion  de  la  variacion  en  Y  explicada  por  X2  y  X2 
conjuntamente  es  la  suma  de  dos  partes:  la  parte  explicada  solo  porX2  ( =  r22)  y  la  parte  no  ex¬ 
plicada  por  X2  (  =  1  —  rf2),  por  la  proporcion  explicada  por  X2  despues  de  mantener  constante  la 
influencia  de  X2.  Ahora  R2  >  r22  siempre  que  r23  2  >  0.  En  el  peor  de  los  casos,  r23  2  sera  cero, 
en  cuyo  caso  R2  —  r\2. 


Resumen  y 
conclusiones 


1.  En  este  capltulo  se  presento  el  modelo  mas  sencillo  posible  de  regresion  lineal  multiple,  a 
saber,  el  modelo  de  regresion  con  tres  variables.  Se  entiende  que  el  termino  lineal  se  refiere 
a  linealidad  en  los  parametros  y  no  necesariamente  en  las  variables. 

2.  Aunque  un  modelo  de  regresion  con  tres  variables  es,  en  muchas  formas,  una  extension  del 
modelo  con  dos  variables,  hay  algunos  conceptos  nuevos,  como  coeficientes  de  regresion  par¬ 
cial,  coeficientes  de  correlacion  parcial,  coeficiente  de  correlacion  multiple,  R2  ajustada  y  no 
ajustada  (por  grados  de  libertad),  multicolinealidad  y  sesgo  de  especificacidn. 

3.  En  este  capitulo  se  considero  tambien  la  forma  funcional  del  modelo  de  regresion  multiple, 
como  la  funcion  de  produccion  Cobb-Douglas  y  el  modelo  de  regresion  polinomial. 

4.  Si  bien  R2  y  R2  ajustada  son  medidas  globales  que  indican  la  forma  en  que  el  modelo  escogido 
se  ajusta  a  un  conjunto  dado  de  datos,  no  debe  exagerarse  su  importancia.  Los  aspectos  criti- 
cos  son  las  expectativas  teoricas  en  que  se  basa  el  modelo  en  terminos  de  los  signos  a  priori 
de  los  coeficientes  de  las  variables  incluidas  en  el  y,  como  se  muestra  en  el  siguiente  capitulo, 
su  significancia  estadistica. 

5.  Los  resultados  presentados  en  este  capitulo  se  generalizan  facilmente  a  un  modelo  de  regre¬ 
sion  lineal  multiple  que  implique  cualquier  numero  de  regresoras.  Pero  el  algebra  se  vuelve  te- 
diosa.  Este  tedio  se  evita  al  recurrir  al  algebra  matricial.  Para  el  lector  interesado,  la  extension 
al  modelo  de  regresion  de  k  variables  mediante  algebra  matricial  se  presenta  en  el  apendice 
C,  opcional.  Pero  el  lector  general  puede  leer  el  resto  del  texto  sin  conocer  mucho  de  algebra 
matricial. 
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EJERCICIOS 

TAB  LA  7.5 


Preguntas 

7.1.  Considere  los  datos  de  la  tabla  7.5. 


Y 

*2 

*3 

1 

1 

2 

3 

2 

1 

8 

3 

-3 

Con  base  en  estos  datos,  estime  las  siguientes  regresiones: 


=  oil  +  012X21  +  Un 

0) 

=  M  +  X3X3i  +  U2i 

(2) 

—  P\+  P2X21  +  PiX3i  +  U  i 

(3) 

Nota:  Estime  solo  los  coeficientes  y  no  los  errores  estandar. 

a)  ^Es  a2  —  P2 ?  6Por  que? 

b)  ^,Es  X3  —  >63?  /,Por  que? 

(',Quc  conclusion  importante  obtiene  de  este  ejercicio? 

7.2.  De  los  siguientes  datos  estime  los  coeficientes  de  regresion  parcial,  sus  errores  estandar  y 
los  valores  R2  ajustada  y  sin  ajustar: 


Y  =  367.693 

J2(Yi  -  Y)2  =  6  6042.269 
- 13)2  =  280.000 
Y^Y,  -  f)(X3i  -  X3)  =  4  250.900 


X2  =  402.760  X,  =  8.0 
£(X2i.  -  X2)2  =  84  855.096 
Y(Yi  -  Y)(X 2i  ~  X2)  =  74  778.346 

Y(x2,  ~  X2)(X3i  -  X3)  =  4  796.000 

n  —  15 


7.3.  Demuestre  que  la  ecuacion  (7.4.7)  se  expresa  tambien  como 

2  _  ~  b23x3i) 

J2(x2i  -  b23x3i)2 

covariacion  neta  (de  x3)  entre  y  y  x2 
variacion  neta  (de  x3)  en  x2 


donde  b23  es  el  coeficiente  de  la  pendiente  en  la  regresion  de  X2  sobre  X3.  ( Sugerencia : 
Recuerde  que  b23  =  Y.xi,x3l/  E]x2;.) 

7.4.  En  un  modelo  de  regresion  multiple  se  le  indica  que  el  termino  de  error  u,  tiene  la  siguiente 
distribucion  de  probabilidades:  ut  ~  N( 0, 4).  yConio  llevaria  a  cabo  un  experimento  Monte 
Carlo  para  verificar  que  la  verdadera  varianza  es  de  hecho  4? 

7.5.  Demuestre  que  r22  3  =  (R2  —  rj3)/(  1  —  r23)  e  interprete  la  ecuacion. 

7.6.  Si  la  relacion  a\X\  +  a2X2  +  a3X3  =  0  se  cumple  para  todos  los  valores  de  X\,  X2  y  X3, 
encuentre  los  valores  de  los  tres  coeficientes  de  correlacion  parcial. 

7.7.  (■,Es  posible  obtener  los  siguientes  resultados  de  un  conjunto  de  datos? 

a)  r23  —  0.9,  r\3  —  -0.2,  rX2  —  0.8 

b )  r\2  =  0.6,  r23  =  -0.9,  r3X  —  -0.5 

c)  r2 1  =  0.01,  ri3  —  0.66,  r23  —  -0.7 
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7.8.  Considere  el  siguiente  modelo: 

Yj  —  +  fi2  Educacion,  +  Alios  de  experiencia  +  u, 

Suponga  que  hace  caso  omiso  de  la  variable  correspondiente  a  los  anos  de  experiencia. 
(.Que  tipos  de  problemas  o  de  sesgos  esperaria  que  surgieran?  Explique  de  manera  verbal. 

7.9.  Demuestre  que  /32  y  /C  en  (7.9.2)  dan  en  realidad  las  elasticidades  produccion  del  trabajo 
y  del  capital.  (Esta  pregunta  puede  resolverse  sin  utilizar  calculo;  solo  recuerde  la  defi- 
nicion  del  coeficiente  de  elasticidad  y  que  un  cambio  en  el  logaritmo  de  una  variable  es 
relativo,  suponiendo  que  los  cambios  sean  pequenos.) 

7. 10.  Considere  el  modelo  de  regresion  lineal  de  tres  variables  analizado  en  este  capitulo. 

a)  Suponga  que  se  multiplican  todos  los  valores  X2  por  2.  (',Cual  sera  el  efecto  de  este 
escalamiento,  si  es  que  se  produce  alguno,  sobre  las  estimaciones  de  los  parametros  y 
sus  errores  estandar? 

b )  Ahora,  en  lugar  de  a),  suponga  que  se  multiplican  todos  los  valores  Y por  2.  (',Cual  seria 
el  efecto  de  esto,  si  es  que  hay  alguno,  sobre  los  parametros  estimados  y  sus  errores 
estandar? 

7.11.  En  general,  R2  ^  r\2  +  r23,  pero  esto  solo  se  cumple  si  r22>  —  0.  Comente  y  resalte  la  im¬ 
portance  de  este  hallazgo.  [ Sugerencia :  Consulte  la  ecuacion  (7.11.5)]. 

7.12.  Considere  los  siguientes  modelos.* 

Modelo  A:  Y,  —  a\  +  a2X2l  +  a2X2t  +  uu 
Modelo  B:  ( Yt  —  X2t)  —  +  fi2X2t  +  /32X2,  +  u2t 

a)  /.Scran  iguales  las  estimaciones  de  MCO  de  ctj  y  fi \ ?  (',Por  que? 

b )  ('.Scran  iguales  las  estimaciones  de  MCO  de  a2  y  (YR  ('.Por  que? 

c)  (j.Cual  es  la  relacion  entre  a2  y  ft2l 

d )  (j.Es  posible  comparar  los  terminos  R2  de  los  dos  modelos?  (.Por  que? 

7. 13.  Suponga  que  estima  la  funcion  de  con  sumo1 

Yj  —  a  i  +  a2X,  +  u\j 

y  la  funcion  de  ahorro 

Zj  =  P\+  PiXj  +  u2j 

donde  Y  —  consumo,  Z  =  ahorro,  X  —  ingreso  y  X  —  Y  +  Z,  es  decir,  el  ingreso  es  igual  al 
consumo  mas  el  ahorro. 

a)  ('.Cual  es  la  relacion,  si  existe,  entre  a2  y  (i2  -  Muestre  sus  calculos. 

b)  (.Sera  la  suma  de  los  residuos  al  cuadrado,  SCR,  la  misma  para  los  dos  modelos?  Ex¬ 
plique. 

c)  (,Se  pueden  comparar  los  terminos  R2  de  los  dos  modelos?  (,Por  que? 

7. 14.  Suponga  que  expresa  el  modelo  Cobb-Douglas  de  (7.9.1)  de  la  siguiente  manera: 

Yj  -  A X*X*Ui 

Si  expresa  este  modelo  en  terminos  logaritmicos,  tendra  In  u,  como  el  termino  de  perturba- 
cion  en  el  lado  derecho. 

a)  (,Quc  supuestos  probabilisticos  debe  hacer  sobre  In  u,  para  aplicar  el  MCRLN?  (.Como 
probaria  esto  con  los  datos  de  la  tabla  7.3? 

b)  (.Se  aplican  los  mismos  supuestos  a  up.  (.Por  que? 


*  Adaptado  de  Wojciech  W.  Charemza  y  Derek  F.  Deadman,  Econometric  Practice:  General  to  Specific  Mode¬ 
lling,  Cointegration  and  Vector  Autoregression,  Edward  Elgar,  Brookfield,  Vermont,  1992,  p.  18. 
t  Adaptado  de  Peter  Kennedy,  A  Guide  To  Econometrics,  3a.  ed.,  The  MIT  Press,  Cambridge,  Massachusetts, 
1992,  p.  308,  pregunta  9. 
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7.15.  Regresion  a  traves  del  origen.  Considere  la  siguiente  regresion  a  traves  del  origen: 

Yj  —  /§2X2  i  +  /*3^3  i  +  «i 

a)  <',Quc  pasos  seguiria  al  estimar  las  incognitas? 

b)  ^Sera  Y  u ,  cero  para  este  modelo?  (lPor  que? 

c)  (',Scra  Y  “  1 X21  —  Y  3/  =  0  para  este  modelo? 

d )  (',Cuando  utilizaria  un  modelo  de  este  tipo? 

e)  (',Pucdc  generalizar  los  resultados  para  el  modelo  de  k  variables? 

(, Sugerencia :  Siga  el  analisis  para  el  caso  de  dos  variables  del  capitulo  6.) 

Ejercicios  empfricos 

7.16.  La  demanda  de  rosas .*  En  la  tabla  7.6  se  presentan  datos  trimestrales  sobre  estas  varia¬ 
bles: 

Y  —  cantidad  de  rosas  vendidas,  docenas 
X2  =  precio  promedio  al  mayoreo  de  las  rosas,  $/docena 
X3  =  precio  promedio  al  mayoreo  de  los  claveles,  $/docena 
X4  =  ingreso  familiar  disponible  promedio  semanal,  $/semana 

X5  =  variable  de  tendencia  que  toma  valores  de  1,  2,  y  asi  sucesivamente,  durante  el  pe- 
riodo  1971 -III  a  1975-11  en  el  area  metropolitana  de  Detroit. 

Se  le  pide  considerar  las  siguientes  funciones  de  demanda: 

Yt  —  a\  -\-  012X21  +  0:3X3;  +  0:4X4;  +  0:5X5;  +  u, 

In Yt  —  +  P2  lnX2;  +  P2  lnX3;  +  ft 4  lnX4;  +  /I5X5 ,  +  ut 

a)  Estime  los  parametros  del  modelo  lineal  e  interprete  los  resultados. 

b )  Estime  los  parametros  del  modelo  log-lineal  e  interprete  los  resultados. 


TABLA  7.6 

Demanda  trimestral  de 
rosas  en  el  area  metro¬ 
politana  de  Detroit,  de 
1971-III  a  1975-11 


Ano  y 
trimestre 

Y 

*2 

*3 

*4 

*5 

1971-111 

11  484 

2.26 

3.49 

158.11 

1 

-IV 

9  348 

2.54 

2.85 

173.36 

2 

1972-1 

8  429 

3.07 

4.06 

165.26 

3 

-II 

10  079 

2.91 

3.64 

172.92 

4 

-III 

9  240 

2.73 

3.21 

178.46 

5 

-IV 

8  862 

2.77 

3.66 

198.62 

6 

1973-1 

6  216 

3.59 

3.76 

186.28 

7 

-II 

8  253 

3.23 

3.49 

188.98 

8 

-III 

8  038 

2.60 

3.13 

180.49 

9 

-IV 

7  476 

2.89 

3.20 

183.33 

10 

1974-1 

5  911 

3.77 

3.65 

181.87 

11 

-II 

7  950 

3.64 

3.60 

185.00 

12 

-III 

6  134 

2.82 

2.94 

184.00 

13 

-IV 

5  868 

2.96 

3.12 

188.20 

14 

1975-1 

3  160 

4.24 

3.58 

175.67 

15 

-II 

5  872 

3.69 

3.53 

188.00 

16 

*  El  autor  agradece  a  Joe  Walsh  por  recopilar  estos  datos  de  un  mayorista  en  el  area  metropolitana  de  Detroit 
y  por  su  subsiguiente  procesamiento. 
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c)  fc.  Pi  y  Pa  dan  respectivamente  las  elasticidades  de  la  demanda  respecto  del  precio 
propio,  precio  cruzado  e  ingreso.  <',Cuales  son,  a  priori,  los  signos  de  estas  elasticida¬ 
des?  pConcuerdan  estos  resultados  con  las  expectativas  a  priori ? 

d )  /,  Co  trio  calcularia  las  elasticidades  precio  propio,  precio  cruzado  e  ingreso  en  el  mo- 
delo  lineal? 

e)  Con  base  en  el  analisis,  pcual  modelo,  si  existe,  escogeria  y  por  que? 

7.17.  Actividad  de  exploration.  Reciben  el  nombre  de  “pozos  de  exploracion”  los  que  se  perfo- 
ran  para  encontrar  y  producir  petroleo  o  gas  natural  en  una  zona  mejorada,  o  para  encontrar 
una  nueva  reserva  en  un  yacimiento  donde  antes  se  encontro  petroleo  o  gas  natural,  o  para 
extender  el  limite  de  una  reserva  de  petroleo  o  gas  conocida.  La  tabla  7.7  contiene  datos 
sobre  estas  variables:* 

Y  =  numero  de  pozos  de  exploracion  perforados 
X2  =  precio  en  la  cabeza  del  pozo  en  el  periodo  anterior  (en  dolares  constantes,  1972  =  100) 
Xt,  =  produccion  interna 
X4  =  PNB  en  dolares  constantes  (1972  =  100) 

Xs  =  variable  de  tendencia,  1948  =  1,  1949  =  2,...,  1978  =  31 
Vea  si  el  siguiente  modelo  se  ajusta  a  los  datos: 

Yt  —  Pi  +  PiXzt  +  Pi  In  Xy  +  P4X4t  +  P$Xst  +  ut 

a)  ^Puede  ofrecer  una  justification  a  priori  para  este  modelo? 

b)  Si  el  modelo  es  aceptable,  estime  los  parametros  del  modelo  y  sus  errores  estandar,  y 
obtenga  R2  y  R2. 

c )  Comente  sus  resultados  desde  el  punto  de  vista  de  sus  expectativas  a  priori. 

d)  i,Que  otra  especificacion  sugeriria  para  explicar  la  actividad  de  exploracion?  <^Por 
que? 

7.18.  Desembolsos  del presupuesto  de  defensa  de  Estados  Unidos,  1962-1981.  Para  explicar  el 
presupuesto  de  defensa  de  Estados  Unidos,  considere  el  siguiente  modelo: 

Yt  —  Pi  +  PlX2t  +  PiXy  +  p4x4(  +  P5X5,  +  u, 

donde  Y,  =  desembolsos  del  presupuesto  de  defensa  durante  el  ano  t,  $  miles  de  mi- 
llones 

X2 1  =  PNB  durante  el  ano  t,  $  miles  de  millones 

X-it  =  ventas  militares  de  Estados  Unidos/ayuda  en  el  ano  t,  $  miles  de  millones 
X4t  =  ventas  de  la  industria  aeroespacial,  $  miles  de  millones 

X$t  =  conflictos  militares  que  implican  a  mas  de  100  000  soldados.  Esta  variable 
adquiere  el  valor  de  1  cuando  participan  100  000  soldados  o  mas,  y  es  igual  a 
cero  cuando  el  numero  de  soldados  no  llega  a  100  000. 

Para  probar  este  modelo,  se  proporcionan  datos  en  la  tabla  7.8. 

a)  Estime  los  parametros  de  este  modelo  y  sus  errores  estandar,  y  obtenga  R2,  R2  modifi- 
cada  y  R2. 

b)  Comente  los  resultados,  considerando  cualquier  expectativa  a  priori  que  tenga  sobre  la 
relacion  entre  Y  y  las  diversas  variables  X. 

c )  iQue  otra(s)  variable(s)  incluirla  en  el  modelo  y  por  que? 


El  autor  aqradece  a  Raymond  Savino  por  recopilar  y  procesar  estos  datos. 
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TAB  LA  7.7 

Actividad  de  exploracion 

Fuente:  Energy  Information 
Administration,  Informe  al 
Congreso,  1978. 


Miles  de 
pozos  de 
exploracion 
(Y) 

8.01 

9.06 

10.31 
11.76 
12.43 

13.31 
13.10 
14.94 

16.17 
14.71 
13.20 
13.19 

11.70 
10.99 

10.80 

10.66 
10.75 

9.47 

10.31 

8.88 

8.88 

9.70 
7.69 
6.92 

7.54 

7.47 
8.63 
9.21 
9.23 
9.96 

10.78 


Precio  por 
barril, 

$  constantes 

(*2> 

4.89 
4.83 

4.68 
4.42 
4.36 

4.55 

4.66 
4.54 
4.44 

4.75 

4.56 
4.29 
4.19 

4.17 

4.11 
4.04 
3.96 
3.85 

3.75 

3.69 

3.56 

3.56 
3.48 

3.53 
3.39 
3.68 
5.92 
6.03 

6.12 
6.05 

5.89 


Produccion 
nacional 
(millones 
de  barriles 
diarios) 

(X3) 

5.52 

5.05 

5.41 

6.16 

6.26 

6.34 

6.81 

7.15 

7.17 
6.71 
7.05 
7.04 

7.18 
7.33 
7.54 
7.61 

7.80 
8.30 

8.81 

8.66 

8.78 

9.18 
9.03 
9.00 

8.78 
8.38 
8.01 

7.78 
7.88 
7.88 

8.67 


PNB, 
miles  de 
millones  de 
$  constantes 
(*4) 

487.67 
490.59 
533.55 
576.57 
598.62 
621.77 

613.67 
654.80 
668.84 
681.02 

679.53 

720.53 

736.86 
755.34 
799.15 

830.70 
874.29 

925.86 
980.98 

1  007.72 
1  051.83 
1  078.76 
1  075.31 
1  107.48 
1  171.10 
1  234.97 
1  217.81 
1  202.36 
1  271.01 
1  332.67 
1  385.10 


Tiempo 

(Xs) 


1948 

= 

1 

1949 

= 

2 

1950 

= 

3 

1951 

= 

4 

1952 

= 

5 

1953 

= 

6 

1954 

= 

7 

1955 

= 

8 

1956 

= 

9 

1957 

= 

10 

1958 

= 

11 

1959 

= 

12 

1960 

= 

13 

1961 

= 

14 

1962 

= 

15 

1963 

= 

16 

1964 

= 

17 

1965 

= 

18 

1966 

= 

19 

1967 

= 

20 

1968 

= 

21 

1969 

= 

22 

1970 

= 

23 

1971 

= 

24 

1972 

= 

25 

1973 

= 

26 

1974 

= 

27 

1975 

= 

28 

1976 

= 

29 

1977 

= 

30 

1978 

= 

31 

7.19.  Demanda  de  came  de  polio  en  Estados  Unidos,  1960-1982.  Para  estudiar  el  consumo  per 
capita  de  carne  de  polio  en  Estados  Unidos  se  presentan  los  datos  de  la  tabla  7.9, 

donde  Y  =  consumo  per  capita  de  came  de  polio,  lbs 
X2  =  ingreso  per  capita  real  disponible,  S 
Xt,  —  precio  real  al  menudeo  del  polio  por  lb,  <t 
X4  —  precio  real  al  menudeo  del  cerdo  por  lb,  j 
X$  —  precio  real  al  menudeo  de  la  carne  de  res  por  lb,  t 

X6  —  Precio  real  compuesto  de  los  sustitutos  de  polio  por  lb,  0,  el  cual  es  un  prome- 
dio  ponderado  de  los  precios  reales  al  menudeo  por  libra  de  came  de  cerdo  y 
de  res;  las  ponderaciones  son  los  consumos  relativos  de  la  carne  de  res  y  de 
cerdo  en  el  consumo  total  de  estos  productos. 
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TAB  LA  7.8 

Desembolsos  del  presu- 
puesto  de  defensa  de 
Estados  Unidos, 
1962-1981 

Fuente:  Albert  Lucchino  recopilo 
estos  datos  de  diversas  publica- 
ciones  gubernamentales. 


TAB  LA  7.9 

Demanda  de  carne  de 
polio  en  Estados  Unidos, 
1960-1982 

Fuente:  Los  datos  sobre  Y provie- 
nen  de  Citibase,  y  los  datos  sobre 
X2  hasta  X(,,  del  Departamento  de 
Agricultura  de  Estados  Unidos.  El 
autor  agradece  a  Robert  J.  Fisher 
por  reunir  los  datos  y  el  analisis 
estadistico. 


Ano 

Desembolsos 

del 

presupuesto 
de  defensa 
(U 

PNB 

(*2) 

Ventas/ 
asistencias 
militares 
de  Estados 
Unidos 
(*s) 

Ventas  de 
la  industria 
aeroespacial 
(*4) 

Conflictos 
100  000+ 

(*s) 

1962 

51.1 

560.3 

0.6 

16.0 

0 

1963 

52.3 

590.5 

0.9 

16.4 

0 

1964 

53.6 

632.4 

1.1 

16.7 

0 

1965 

49.6 

684.9 

1.4 

17.0 

1 

1966 

56.8 

749.9 

1.6 

20.2 

1 

1967 

70.1 

793.9 

1.0 

23.4 

1 

1968 

80.5 

865.0 

0.8 

25.6 

1 

1969 

81.2 

931.4 

1.5 

24.6 

1 

1970 

80.3 

992.7 

1.0 

24.8 

1 

1971 

77.7 

1  077.6 

1.5 

21.7 

1 

1972 

78.3 

1  185.9 

2.95 

21.5 

1 

1973 

74.5 

1  326.4 

4.8 

24.3 

0 

1974 

77.8 

1  434.2 

10.3 

26.8 

0 

1975 

85.6 

1  549.2 

16.0 

29.5 

0 

1976 

89.4 

1  718.0 

14.7 

30.4 

0 

1977 

97.5 

1  918.3 

8.3 

33.3 

0 

1978 

105.2 

2  163.9 

11.0 

38.0 

0 

1979 

117.7 

2  417.8 

13.0 

46.2 

0 

1980 

135.9 

2  633.1 

15.3 

57.6 

0 

1981 

162.1 

2  937.7 

18.0 

68.9 

0 

Ano 

Y 

*2 

*3 

x4 

*5 

x6 

1960 

27.8 

397.5 

42.2 

50.7 

78.3 

65.8 

1961 

29.9 

413.3 

38.1 

52.0 

79.2 

66.9 

1962 

29.8 

439.2 

40.3 

54.0 

79.2 

67.8 

1963 

30.8 

459.7 

39.5 

55.3 

79.2 

69.6 

1964 

31.2 

492.9 

37.3 

54.7 

77.4 

68.7 

1965 

33.3 

528.6 

38.1 

63.7 

80.2 

73.6 

1966 

35.6 

560.3 

39.3 

69.8 

80.4 

76.3 

1967 

36.4 

624.6 

37.8 

65.9 

83.9 

77.2 

1968 

36.7 

666.4 

38.4 

64.5 

85.5 

78.1 

1969 

38.4 

717.8 

40.1 

70.0 

93.7 

84.7 

1970 

40.4 

768.2 

38.6 

73.2 

106.1 

93.3 

1971 

40.3 

843.3 

39.8 

67.8 

104.8 

89.7 

1972 

41.8 

911.6 

39.7 

79.1 

114.0 

100.7 

1973 

40.4 

931.1 

52.1 

95.4 

124.1 

113.5 

1974 

40.7 

1  021.5 

48.9 

94.2 

127.6 

115.3 

1975 

40.1 

1  165.9 

58.3 

123.5 

142.9 

136.7 

1976 

42.7 

1  349.6 

57.9 

129.9 

143.6 

139.2 

1977 

44.1 

1  449.4 

56.5 

117.6 

139.2 

132.0 

1978 

46.7 

1  575.5 

63.7 

130.9 

165.5 

132.1 

1979 

50.6 

1  759.1 

61.6 

129.8 

203.3 

154.4 

1980 

50.1 

1  994.2 

58.9 

128.0 

219.6 

174.9 

1981 

51.7 

2  258.1 

66.4 

141.0 

221.6 

180.8 

1982 

52.9 

2  478.7 

70.4 

168.2 

232.6 

189.4 

Nota:  Los  precios  reales  se  obtuvieron  al  dividir  los  precios  nominales  entre  el  Indice  de  Precios  al  Consumidor  correspondiente 
a  alimentos. 
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Ahora  considere  las  siguientes  funciones  de  demanda: 


In  Y,  —  a  i  +  &2  lnX2t  +  a3  In  X3t  +  ut 


(1) 

(2) 

(3) 

(4) 

(5) 


In  Yt  =  Yi  +  V2  In  X2,  +  y3  In  X3t  +  y4  \nX4t  +  u, 
In  Yt  =  +  X2  \nX2t  +  ^,3  InX^t  -|-  X4  In  X$t  Ut 


In  Yt  —  0\  -f-  O2  \nX2t  +  O3  \nXit  O4  In  X^t  -l-  $5  In  X$t  Ut 


In  Yt  —  +  fi2  In  X2t  +  P3  In  X3t  +  j}4  In  X&  +  u, 


De  la  teoria  microeconomica,  se  sabe  que  la  demanda  de  un  bien  suele  depender  del  in- 

greso  real  del  consumidor,  del  precio  real  del  bien  y  de  los  precios  reales  de  los  bienes 

complementarios  o  que  compiten  con  el.  Ante  estas  consideraciones,  responda  las  siguien¬ 
tes  preguntas. 

a)  Entre  las  funciones  de  demanda  que  aqui  se  dan,  (',cual  escogeria  y  por  que? 

b )  /,C6mo  interpretaria  los  coeficientes  de  In  X2,  y  In  X3t  en  estos  modelos? 

c)  (',Cual  es  la  diferencia  entre  las  especificaciones  (2)  y  (4)? 

d)  (',Quc  problemas  preve  si  adopta  la  especificacion  (4)?  ( Sugerencia :  Los  precios  de  la 
carne  de  cerdo  y  de  res  se  incluyen  con  el  del  polio.) 

e)  Como  la  especificacion  (5)  incluye  el  precio  compuesto  de  la  carne  de  res  y  de  cerdo, 
('prcfcrina  la  funcion  de  demanda  (5)  a  la  funcion  (4)?  (',Por  que? 

/)  ^,La  carne  de  cerdo  y  la  de  res  son  productos  que  compiten  con  el  polio  o  que  lo  susti- 
tuyen?  (',C6iuo  sabe? 

g)  Suponga  que  la  funcion  (5)  es  la  de  demanda  “correcta”.  Estime  los  parametros  de  este 
modelo,  obtenga  sus  errores  estandar  asi  como  R2,  R1  y  R1  modificada.  Interprete  sus 


resultados. 


h)  Ahora  suponga  que  corre  el  modelo  “incorrecto”  (2).  Evalue  las  consecuencias  de  esta 
mala  especificacion  considerando  los  valores  de  y2  y  y3  en  relacion  con  f>2  y  ft3,  respec- 
tivamente.  ( Sugerencia :  Preste  atencion  al  analisis  de  la  seccion  7.7.) 

7.20.  En  un  estudio  de  rotacion  de  empleados  en  el  mercado  laboral,  James  F.  Ragan,  Jr.,  obtuvo 
los  siguientes  resultados  para  la  economia  de  Estados  Unidos  de  1950-1  a  1979-IV*  (Las 
cifras  entre  parentesis  son  los  estadisticos  t  estimados.) 


InF,  =  4.47  -  0.341nA2f+  \.22\nX3t+  1.22  lnX,, 

(4.28)  (-5.31)  (3.64)  (3.10) 

+  0.801nX5f-  0.0055  X6l  R2  —  0.5370 

(1.10)  (-3.09) 


Nota:  Estudiaremos  los  estadisticos  t  en  el  proximo  capitulo. 

donde  Y  —  tasa  de  renuncias  laborales  en  el  sector  manufacturero,  definida  como  el  nu- 
mero  de  personas  que  deja  su  trabajo  voluntariamente  por  cada  100  emplea¬ 
dos 

X2  —  variable  instrumental  o  “representante”  de  la  tasa  de  desempleo  de  hombres 
adultos 

X3  —  porcentaje  de  empleados  menores  de  25  anos 

X4  —  Nt-\/N,-4  =  tasa  de  empleo  en  el  sector  manufacturero,  en  el  trimestre 
(t  —  1),  respecto  de  la  del  trimestre  (t  —  4) 

Xs  =  porcentaje  de  mujeres  empleadas 

X(,  —  tendencia  de  tiempo  (1950-1  =  1) 


*  Fuente:  Vease  el  artfculo  de  Ragan  "Turnover  in  the  Labor  Market:  A  Study  of  Quit  and  Layoff  Rates",  Eco¬ 
nomic  Review,  Federal  Reserve  Bank  of  Kansas  City,  mayo  de  1 981 ,  pp.  1 3-22. 
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a)  Interprete  los  resultados  anteriores. 

b )  ^Puede  justificarse  a  priori  la  relation  negativa  observada  entre  los  logaritmos  de  Yy 
X2? 

c )  i  Por  que  es  positivo  el  coeficiente  de  In  X21 

d )  Como  el  coeficiente  de  tendencia  es  negativo,  /,dc  que  porcentaje  es  el  descenso  tem¬ 
poral  en  la  tasa  de  retiro  laboral,  y  por  que  se  presenta  dicho  descenso? 

e)  ^Es  la  R2  “muy”  baja? 

/)  ^Puede  estimar  los  errores  estandar  de  los  coeficientes  de  regresion  a  partir  de  los  datos 
dados?  (',Por  que? 

7.21.  Considere  la  siguiente  funcion  de  demanda  de  dinero  para  Estados  Unidos  durante  el  pe- 
riodo  1980-1998: 


M,  =  frYprpe* 


donde  M  =  demanda  real  de  dinero,  de  acuerdo  con  la  definition  M2  de  dinero 
Y=  PIB  real 
r  =  tasa  de  interes 


Para  estimar  la  anterior  funcion  de  demanda  de  dinero  se  presentan  los  datos  de  la  tabla 
7.10. 

Nota:  Para  convertir  cantidades  nominales  a  reales,  divida  M  y  PIB  entre  IPC.  No  es 
necesario  dividir  la  tasa  de  interes  variable  entre  el  IPC.  Tambien  tenga  en  cuenta  que  se 
proporcionaron  dos  tasas  de  interes,  una  de  corto  plazo,  medida  de  acuerdo  con  la  tasa  de 
interes  de  los  bonos  del  Tesoro  a  tres  meses,  y  otra  de  largo  plazo,  medida  segun  el  rendi- 
miento  de  los  bonos  del  Tesoro  a  30  anos,  segun  la  linea  de  estudios  empiricos  previos  que 
emplearon  ambos  tipos  de  tasas  de  interes. 


TABLA  7.10 

Demanda  de  dinero 
en  Estados  Unidos, 
1980-1998 

Fuente:  Economic  Report  of  the 
President ,  2000,  tablas  B-l,  B-58, 
B-67  y  B-71. 


Observation 

PIB 

m2 

IPC 

TILP 

TITM 

1980 

2  795.6 

1  600.4 

82.4 

11.27 

11.506 

1981 

3  131.3 

1  756.1 

90.9 

13.45 

14.029 

1982 

3  259.2 

1  911.2 

96.5 

12.76 

10.686 

1983 

3  534.9 

2  127.8 

99.6 

11.18 

8.630 

1984 

3  932.7 

2  311.7 

103.9 

12.41 

9.580 

1985 

4  213.0 

2  497.4 

107.6 

10.79 

7.480 

1986 

4  452.9 

2  734.0 

109.6 

7.78 

5.980 

1987 

4  742.5 

2  832.8 

113.6 

8.59 

5.820 

1988 

5  108.3 

2  995.8 

118.3 

8.96 

6.690 

1989 

5  489.1 

3  159.9 

124.0 

8.45 

8.120 

1990 

5  803.2 

3  279.1 

130.7 

8.61 

7.510 

1991 

5  986.2 

3  379.8 

136.2 

8.14 

5.420 

1992 

6  318.9 

3  434.1 

140.3 

7.67 

3.450 

1993 

6  642.3 

3  487.5 

144.5 

6.59 

3.020 

1994 

7  054.3 

3  502.2 

148.2 

7.37 

4.290 

1995 

7  400.5 

3  649.3 

152.4 

6.88 

5.510 

1996 

7  813.2 

3  824.2 

156.9 

6.71 

5.020 

1997 

8  300.8 

4  046.7 

160.5 

6.61 

5.070 

1998 

8  759.9 

4  401 .4 

163.0 

5.58 

4.810 

Notas:  PIB:  producto  interno  bruto  (miles  de  millones  de  dolares). 

M2:  oferta  de  dinero  M2. 

IPC:  indice  de  precios  al  consumidor. 

TILP:  tasa  de  interes  de  largo  plazo  (bonos  del  Tesoro  a  30  anos). 
TITM:  tasa  de  interes  de  los  bonos  del  Tesoro  a  tres  meses  (%  anual). 
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a)  Con  los  datos  anteriores,  calcule  la  funcion  de  demanda  anterior.  /.Cuales  son  las  elas- 
ticidades  del  ingreso  y  de  la  tasa  de  interes  de  la  demanda  de  dinero? 

b )  En  lugar  de  estimar  la  funcion  demanda  anterior,  suponga  que  debe  ajustar  la  funcion 
( M/Y ),  =  U\ r“2e“'.  /.Como  interpretaria  los  resultados?  Muestre  los  calculos  necesa- 
rios. 

c)  /.Como  decidiria  cual  es  la  mejor  especificacion?  ( Nota :  Se  ofrece  una  prueba  estadis- 
tica  formal  en  el  capitulo  8.) 

7.22.  La  tabla  7.11  suministra  datos  sobre  el  sector  manufacturero  de  la  economia  griega  de 

1961  a  1987. 

a)  Vea  si  la  funcion  produccion  de  Cobb-Douglas  se  ajusta  a  los  datos  de  la  tabla  e  inter- 
prete  los  resultados.  /.A  que  conclusion  general  llega? 

b )  Ahora  considere  el  siguiente  modelo: 

Produccion/trabajo  =  A(K)L  )^eu 

donde  la  variable  regresada  representa  la  productividad  del  trabajo,  y  la  regresora,  la 
razon  capital-trabajo.  /.Cual  es  la  importancia  economica  de  dicha  relacion,  si  existe 
alguna?  Estime  los  parametros  de  este  modelo  e  interprete  los  resultados. 


TABLA  7.11 

Sector  industrial  griego 

Observacion 

Produccion* 

Capital 

Trabajo* 

Razon 

capital-trabajo 

Fuente:  El  autor  esta  en  deuda 

1961 

35.858 

59.600 

637.0 

0.0936 

con  George  K.  Zestos,  de  la 

1962 

37.504 

64.200 

643.2 

0.0998 

Christopher  Newport  University, 
Virginia,  por  estos  datos. 

1963 

40.378 

68.800 

651.0 

0.1057 

1964 

46.147 

75.500 

685.7 

0.1101 

1965 

51.047 

84.400 

710.7 

0.1188 

1966 

53.871 

91.800 

724.3 

0.1267 

1967 

56.834 

99.900 

735.2 

0.1359 

1968 

65.439 

109.100 

760.3 

0.1435 

1969 

74.939 

120.700 

777.6 

0.1552 

1970 

80.976 

132.000 

780.8 

0.1691 

1971 

90.802 

146.600 

825.8 

0.1775 

1972 

101.955 

162.700 

864.1 

0.1883 

1973 

114.367 

180.600 

894.2 

0.2020 

1974 

101.823 

197.100 

891.2 

0.2212 

1975 

107.572 

209.600 

887.5 

0.2362 

1976 

117.600 

221.900 

892.3 

0.2487 

1977 

123.224 

232.500 

930.1 

0.2500 

1978 

130.971 

243.500 

969.9 

0.2511 

1979 

138.842 

257.700 

1  006.9 

0.2559 

1980 

135.486 

274.400 

1  020.9 

0.2688 

1981 

133.441 

289.500 

1  017.1 

0.2846 

1982 

130.388 

301.900 

1  016.1 

0.2971 

1983 

130.615 

314.900 

1  008.1 

0.3124 

1984 

132.244 

327.700 

985.1 

0.3327 

1985 

137.318 

339.400 

977.1 

0.3474 

1986 

137.468 

349.492 

1  007.2 

0.3470 

1987 

135.750 

358.231 

1  000.0 

0.3582 

*  Miles  de  millones  de  dracmas  a  precios  constantes  de  1970. 
t  Miles  de  trabaj  adores  al  ano. 


Capftulo  7  Analisis  de  regresion  multiple:  el problema  de  estimacion  225 


7.23.  Experimento  Monte  Carlo.  Considere  el  siguiente  modelo: 

Y,  —  P\  +  faXa  +  PlXy  +  Uj 

Le  informan  que  P\  =  262,  —  —0.006,  /S3  =  —2.4,  a2  =  42  y  ut  ~  V(0,  42).  Genere  10 

conjuntos  de  64  observaciones  sobre  u,  a  partir  de  la  distribucion  normal  dada  y  utilice  las 
64  observaciones  de  la  tabla  6.4,  donde  Y  =  MI,  Xi  =  P1BPC,  y  X3  —  TAM,  para  general' 
10  conjuntos  de  coeficientes  j6  estimados  (cada  conjunto  tendra  tres  parametros  estima- 
dos).  Tome  los  promedios  de  todos  los  coeficientes  /8  estimados  y  relacionelos  con  los 
verdaderos  valores  de  dichos  coeficientes  dados  arriba.  ;,A  que  conclusion  general  llega  de 
lo  anterior? 

7.24.  La  tabla  7.12  presenta  datos  del  gasto  de  consumo  real,  ingreso  real,  riqueza  real  y  tasas 
de  interes  reales  de  Estados  Unidos  de  1947  a  2000.  Estos  datos  se  volveran  a  usar  en  el 
ejercicio  8.35. 

a)  Con  los  datos  de  la  tabla,  estime  la  funcion  de  consumo  lineal  usando  los  datos  de 
ingreso,  riqueza  y  tasa  de  interes.  pCual  es  la  ecuacion  ajustada? 

b )  (]Quc  indican  los  coeficientes  estimados  sobre  las  relaciones  entre  las  variables  y  el 
gasto  de  consumo? 


TABLA  7.12 
Gasto  de  consumo  real, 
ingreso  real,  riqueza  real 
y  tasas  de  interes  reales 
de  Estados  Unidos, 
1947-2000 

Fuentes:  C,  Yd  y  los  indices  de 
precios  trimestrales  y  anuales, 
ajustados  por  la  inflation  (1996  = 
1 00),  Oficina  de  Analisis  Econo- 
mico,  Departamento  de  Comercio 
de  Estados  Unidos  (http://www. 
bea.doc.gov/bea/dnl  .htm). 
Rendimiento  nominal  anual  de 
los  bonos  del  Tesoro  a  tres  meses: 
Economic  Report  of  the  Presi¬ 
dent,  2002. 

Riqueza  nominal  =  valor  neto 
nominal  a  final  de  ano  de  unida- 
des  familiares  y  organizaciones 
sin  fines  de  lucro  (tornado  de 
los  datos  de  flujo  de  fondos  de 
la  Reserva  Federal;  http://www. 
federalreserve .  gov) . 


Ano 

C 

Yd 

Riqueza 

Tasa  de  interes 

1947 

976.4 

1  035.2 

5  166.8 

-10.351 

1948 

998.1 

1  090.0 

5  280.8 

-4.720 

1949 

1  025.3 

1  095.6 

5  607.4 

1.044 

1950 

1  090.9 

1  192.7 

5  759.5 

0.407 

1951 

1  107.1 

1  227.0 

6  086.1 

-5.283 

1952 

1  142.4 

1  266.8 

6  243.9 

-0.277 

1953 

1  197.2 

1  327.5 

6  355.6 

0.561 

1954 

1  221.9 

1  344.0 

6  797.0 

-0.138 

1955 

1  310.4 

1  433.8 

7  1  72.2 

0.262 

1956 

1  348.8 

1  502.3 

7  375.2 

-0.736 

1957 

1  381.8 

1  539.5 

7  315.3 

-0.261 

1958 

1  393.0 

1  553.7 

7  870.0 

-0.575 

1959 

1  470.7 

1  623.8 

8  188.1 

2.296 

1960 

1  510.8 

1  664.8 

8  351.8 

1.511 

1961 

1  541.2 

1  720.0 

8  971.9 

1.296 

1962 

1  617.3 

1  803.5 

9  091.5 

1.396 

1963 

1  684.0 

1  871.5 

9  436.1 

2.058 

1964 

1  784.8 

2  006.9 

10  003.4 

2.027 

1965 

1  897.6 

2  131.0 

10  562.8 

2.112 

1966 

2  006.1 

2  244.6 

10  522.0 

2.020 

1967 

2  066.2 

2  340.5 

11  312.1 

1.213 

1968 

2  184.2 

2  448.2 

12  145.4 

1.055 

1969 

2  264.8 

2  524.3 

11  672.3 

1.732 

1970 

2  314.5 

2  630.0 

11  650.0 

1.166 

1971 

2  405.2 

2  745.3 

12  312.9 

-0.712 

1972 

2  550.5 

2  874.3 

13  499.9 

-0.156 

1973 

2  675.9 

3  072.3 

13  081.0 

1.414 

1974 

2  653.7 

3  051.9 

1 1  868.8 

-1.043 

1975 

2  710.9 

3  108.5 

12  634.4 

-3.534 

1976 

2  868.9 

3  243.5 

13  456.8 

-0.657 

(continua) 
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TABLA  7.12 

Ano 

C 

Yd 

Riqueza 

Tasa  de  interes 

( continuation ) 

1977 

2  992.1 

3  360.7 

13  786.3 

-1.190 

1978 

3  124.7 

3  527.5 

14  450.5 

0.113 

1979 

3  203.2 

3  628.6 

15  340.0 

1.704 

1980 

3  193.0 

3  658.0 

15  965.0 

2.298 

1981 

3  236.0 

3  741.1 

15  965.0 

4.704 

1982 

3  275.5 

3  791.7 

16  312.5 

4.449 

1983 

3  454.3 

3  906.9 

16  944.8 

4.691 

1984 

3  640.6 

4  207.6 

17  526.7 

5.848 

1985 

3  820.9 

4  347.8 

19  068.3 

4.331 

1986 

3  981.2 

4  486.6 

20  530.0 

3.768 

1987 

4  113.4 

4  582.5 

21  235.7 

2.819 

1988 

4  279.5 

4  784.1 

22  332.0 

3.287 

1989 

4  393.7 

4  906.5 

23  659.8 

4.318 

1990 

4  474.5 

5  014.2 

23  105.1 

3.595 

1991 

4  466.6 

5  033.0 

24  050.2 

1.803 

1992 

4  594.5 

5  189.3 

24  418.2 

1.007 

1993 

4  748.9 

5  261.3 

25  092.3 

0.625 

1994 

4  928.1 

5  397.2 

25  218.6 

2.206 

1995 

5  075.6 

5  539.1 

27  439.7 

3.333 

1996 

5  237.5 

5  677.7 

29  448.2 

3.083 

1997 

5  423.9 

5  854.5 

32  664.1 

3.120 

1998 

5  683.7 

6  168.6 

35  587.0 

3.584 

1999 

5  968.4 

6  320.0 

39  591.3 

3.245 

2000 

6  257.8 

6  539.2 

38  167.7 

3.576 

Notas:  Ano  =  ano  calendario. 

C  =  gasto  de  consumo  real  en  miles  de  millones  de  dolares  de  1996  ajustados  por  la  inflacion. 

Yd  =  ingreso  disponible  personal  real  en  miles  de  millones  de  dolares  de  1996  ajustados  por  la  inflacion. 

Riqueza  =  riqueza  real  en  miles  de  millones  de  dolares  de  1996  ajustados  por  la  inflacion. 

Interes  =  rendimiento  nominal  anual  de  los  bonos  del  Tesoro  a  3  meses,  ajustado  por  la  tasa  de  inflacion  (medido  por  el  cambio 
porcentual  anual  en  el  indice  anual  de  precios,  ajustado  por  la  inflacion). 

La  variable  de  riqueza  nominal  real  se  creo  con  datos  de  la  medicion  que  realiza  la  Junta  de  la  Reserva  Federal  del  valor  neto  a  final  de 
ano  de  unidades  familiares  y  organizaciones  sin  fines  de  lucro  en  las  cuentas  del  flujo  de  fondos.  El  indice  de  precios  con  que  se  convir- 
tio  esta  variable  de  riqueza  nominal  en  una  variable  de  riqueza  real  fue  el  promedio  del  indice  de  precios,  ajustado  por  la  inflacion,  del 
cuarto  trimestre  del  ano  en  curso  y  el  primer  trimestre  del  ano  siguiente. 


7.25.  Estimation  de  los  precios  de  las  acciones  de  Qualcomm.  Como  ejemplo  de  la  regresion 
polinomial  considere  los  datos  sobre  los  precios  semanales  de  las  acciones  de  Qualcomm, 
Inc.,  disenador  y  fabricante  de  aparatos  inalambricos  digitales  para  telecomunicaciones,  de 
1995  a  2000.  Los  datos  completos  se  encuentran  en  el  sitio  Web  del  libro,  en  la  tabla  7.13. 
A  finales  de  la  decada  de  1990,  las  acciones  de  las  empresas  tecnologicas  fueron  especial- 
mente  redituables,  pero,  (',que  tipo  de  modelo  de  regresion  se  ajusta  mejor  a  estos  datos? 
La  figura  7.4  muestra  una  grafica  elemental  de  los  datos  correspondiente  a  esos  anos. 

Esta  grafica  no  se  parece  a  la  curva  en  forma  de  S  alargada;  parece  haber  un  ligero  au- 
mento  en  el  precio  promedio  de  las  acciones,  pero  luego  la  tasa  se  incrementa  de  manera 
drastica  hacia  el  extremo  derecho.  A  medida  que  la  demanda  de  telefonos  mas  especializa- 
dos  aumentaba  a  pasos  agigantados  y  el  auge  tecnologico  seguia  su  curso,  el  precio  de  las 
acciones  siguio  la  tendencia  y  aumento  a  un  ritmo  mucho  mas  rapido. 

a)  Estime  un  modelo  lineal  para  pronosticar  el  precio  de  cierre  de  las  acciones  con  base 
en  el  tiempo.  ,',Lc  parece  que  este  modelo  se  ajusta  bien  a  los  datos? 

b)  Ahora  estime  un  modelo  cuadratico  y  use  tanto  el  tiempo  como  el  tiempo  elevado  al 
cuadrado.  ^Obtuvo  un  mejor  ajuste  que  en  a)l 
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FIGURA  7.4 


Precio 


Precios  de  las  acciones  de 
Qualcomm  a  traves  del 
tiempo. 


Fecha 


c)  Por  ultimo,  ajuste  el  siguiente polinomio  de  tercer  grado  o  cubico: 

Yi  =  A,  +  Pi  xt  +  p2x]  +  foX]  +  Ui 

donde  Y  —  precio  de  las  acciones  y  X=  tiempo.  pQue  modelo  parece  el  mejor  estimador 
de  los  precios  de  las  acciones? 


Apendice  7  A 


7A.1  Derivacion  de  los  estimadores  de  MCO 
dados  en  las  ecuaciones  (7.4.3)  a  (7.4.5) 

A1  diferenciar  parcialmente  la  ecuacion 

=  a  -  -  fcx*)2  <7-4-2) 

respecto  de  las  tres  incognitas  e  igualar  a  cero  las  ecuaciones  resultantes,  obtenemos 

=  2  -Pi-  PiXn  -  te-)(- 1)  =  0 
=  2  YjJi  -Pi-  P2X2i  -  foX3i)(-X2i)  =  0 
=  2  YjJt~  Pi~  PiX2i  -  P3X3i)(—X3i)  =  0 


9  E 

dPi 

dP2 

9  T,  »? 

dPl 


Simplificamos  lo  anterior  y  obtenemos  las  ecuaciones  (7.4.3)  a  (7.4.5). 
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A  proposito,  observe  que  las  tres  ecuaciones  anteriores  tambien  se  escriben  como 


7"  Uj  =  0 

y^UjX2j  =  0  (iPorque?) 
Y,*iX3i  =0 


lo  cual  muestra  que  las  propiedades  de  los  mlnimos  cuadrados  se  ajustan,  es  decir,  que  los  residuos  suman 
cero  y  que  no  estan  correlacionados  con  las  variables  explicativas  X2  y  X2. 

Por  cierto,  observe  que  para  obtener  los  estimadores  de  MCO  del  modelo  de  regresion  lineal  de  k  varia¬ 
bles  (7.4.20)  se  precede  analogamente.  Asl,  primero  escribimos 


E »?  =  E(y*  -  ft  -  ^x2 i - faxu? 


Diferenciamos  esta  expresion  parcialmente  respecto  de  cada  incognitas  k,  igualamos  a  cero  las  ecuaciones 
resultantes  y  reorganizamos  para  obtener  las  siguientes  k  ecuaciones  normales  con  k  incognitas: 


E =  "ft + ft  EX2' + a  E*»  +  ■  ■  ■ + ft  Ex« 

E  Y‘X2 i  =  ft  J2  +  ft  E  X2 i  +  ft  E  XliX 3'-  +  •  ■  ■  +  ft  E  X2iXki 

E  =  ft  E  X3i  +  ft  E  X2iX2i  +  ft  E  X3,-  +  •  ■  ■  +  ft  E 
E  =  ft  e  xkt + ft  E  + ft  E  + ■  ■  ■ + ft  E  x2^ 

O,  si  cambiamos  a  letras  mimisculas,  estas  ecuaciones  se  expresan  como 


E^  =  ft  Ex2‘ + ft  E™ _l — 

+  ft-  E  *2;X*i 

E#X3‘  =  ft  E^^  +  ft  EX3'  h — 

“I-  fik  ^  ]  ^3/ 

EpiX*'  =  ft  EX2,xk + ft  Ex*x* + 

— t-  ft  E x« 

Debe  observar,  ademas,  que  el  modelo  de  k  variables  satisface  tambien  estas  ecuaciones: 

l>=0 

^  ^  ^ i Xli  ^  ^  ^ i =  •  •  •  =  ^  '  UiXfo  =  0 
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7A.2  Igualdad  entre  los  coeficientes  del  PIBPC 
en  las  ecuaciones  (7.3.5)  y  (7.6.2) 


Sea  Y  =  MI,  X2  =  PIBPC  y  X3  =  TAM,  y  al  utilizar  la  forma  de  desviacion,  se  tiene 

T;  =  613X3;  +  uu  (1) 

xn  =  biixn  +  u2i  (2) 

Ahora  efectuamos  la  regresion  en  u  \  sobre  112  para  obtener: 

V''  U 1  iUOi 

a\  =  — —j - =  —0.0056  (para  este  ejemplo)  (3) 

u2i 

Observe  que,  en  vista  de  que  las  u  son  residuos,  sus  valores  medios  son  cero.  Con  (1)  y  (2),  (3)  se  expresa 
como 


_  £1)4  ~  bi3X3i)(x2i  -  *2  3*3i) 
C‘X  £(X2i  -  *23X3i)2 

Expanda  la  expresion  anterior  y  observe  que 


*23 


J2x2ixV 

E4 


y 


*13 


£  Yix3i 

T4T 


(4) 

(5) 

(6) 


Al  hacer  esas  sustituciones  en  (4),  obtenemos 


s  =  (Z><*2/)  (E4)  ~  (Ej^3/)  (£*2, *3,) 

(£4)  (£4)  -  (£^2iX3i)2 

=  —0.0056  (para  este  ejemplo) 


7 A.3  Derivacion  de  la  ecuacion  (7.4.19) 

Recuerde  que 

Ui  =  Yi  —  /Si  —  P2X21  —  foX^i 

que  tambien  se  escribe  como 

Ui  =  yi  -  P2X2 i  ~  <63X3; 

donde  las  letras  minusculas,  como  es  usual,  indican  desviaciones  respecto  de  los  valores  de  la  media. 
Ahora, 

=  XI  _  P2X2i  -  ^3X3/) 

=  J2{iiyi 


230 


Parte  Uno  Modelos  de  regresion  uniecuacionales 


donde  se  aprovecha  que  Uixu  =  Uixn  =  0-  (<i,Por  que?)  Tambien 

22 Uiyt  ='Y^yiui  =  22y'(y'  -  p2x2i  -  fax3 ;) 

es  decir, 

22 =  22  yi  ~  P2  J2  y‘X2i  ~  &  J2  y‘X2i  (7-4- 1 9) 

que  es  el  resultado  requerido. 


7A.4  Estimacion  de  maxima  verosimilitud 
del  modelo  de  regresion  multiple 


Con  la  extension  de  las  ideas  presentadas  en  el  capltulo  4,  apendice  4A,  escribimos  la  funcion  log  de  vero¬ 
similitud  para  el  modelo  de  regresion  lineal  con  k  variables  (7.4.20)  como 


ti  T  fi  1  T \ 

Ini  =—  —  In cr2  —  —  In (2jt)  —  -  / 


{Yt- Pi-  P2X2i - pkXkif 


Diferenciamos  esta  funcion  parcialmente  respecto  de  Pi,  ft,  .  .  .  ,  ft  y  cr2,  y  obtenemos  las  siguientes 
(K  +  1)  ecuaciones: 


9  Ini  1  ^ 

=  -  —  ~P'~  PiXv - PkXuX- 1) 


dpi 
9  Ini 

"W 

9  Ini 

9  Ini 

da2 


J2(Y  -Pi-  P2X2i 


J2(Yi  -  Pi  -  PiXii 


PkXki){-X2i) 

PkXki)(-Xki) 


=-  i  +  h  E w  -  P'  -  P2X 2' — p kx^2 


(1) 
(2) 
(K) 
{K+  1) 


A1  igualar  estas  ecuaciones  a  cero  (la  condicion  de  primer  orden  para  optimizacion)  y  definir  pi,  p2, 
pk  y  a2  como  estimadores  de  MV,  obtenemos,  despues  de  simples  manipulaciones  algebraicas, 

22Yi  =  nP'  +PiJ2X2i  +  ---  +  PkJ2Xki 

22  yix2i  =  h  22  X2i + fa  22  x %  +  ■■■  + ^  22  X2>Xk- 


22  Y‘xki  =  pX  Xki  +pX  XiiXki  +  --+Pk22x > 


que  son  precisamente  las  ecuaciones  normales  de  la  teoria  de  minimos  cuadrados,  como  se  ve  en  el  apen¬ 
dice  7 A,  seccion  7A.1.  Por  consiguiente,  los  estimadores  de  MV,  los  P,  son  los  mismos  que  los  estimado¬ 
res  de  MCO,  los  P,  dados  antes.  Pero,  como  mencionamos  en  el  capitulo  4,  apendice  4A,  esta  igualdad  no  es 
accidental. 

Sustituimos  los  estimadores  de  MV  (=  MCO)  en  la  ecuacion  numero  (K+  1)  recien  dada  y  obtenemos, 
despues  de  simplificar,  el  siguiente  estimador  de  MV  de  cr2 


!  =  -  Y\Yi  ~  Pi  -  ~PlX2i - PkXki)2 

n  ^ 


Como  se  anoto  en  el  texto,  este  estimador  difiere  del  estimador  de  MCO  cr2  =  ^  u2){n  —  k).  Y,  como  el 
ultimo  es  un  estimador  insesgado  de  cr2,  esta  conclusion  implica  que  el  estimador  de  MV  a2  es  sesgado. 
Pero,  como  se  verifica  facilmente,  asintoticamente,  a2  es  tambien  insesgado. 
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7A.5  Listado  de  EViews  de  la  funcion  de  produccion 
Cobb  Douglas  de  la  ecuacion  (7.9.4) 


Variable  dependiente:  Y1 
Metodo:  Mfnimos  cuadrados 
Observaciones  incluidas:  51 


Coeficiente 

Error  estandar 

Estadfstico  f 

Prob. 

c 

3.887600 

0.396228 

9.811514 

0.0000 

Y2 

0.468332 

0.098926 

4.734170 

0.0000 

Y3 

0.521279 

0.096887 

5.380274 

0.0000 

R  al  cuadrado 

0.964175 

Media  de  la  var.  dependiente  1 6.941  39 

R  al  cuadrado  ajustada 

0.962683 

E.E.  var.  dependiente 

1.380870 

E.E.  de  la  regresion 

0.266752 

Criterio  de  inform.  Akaike  0.252028 

Suma  de  cuadrados  de  residuos 

3.415520 

Criterio  Schwarz 

0.365665 

Log  verosimilitud 

-3.426721 

Criterio  Hannan-Quinn 

0.295452 

Estadfstico  F 

645.9311 

Est.  Durbin-Watson 

1.946387 

Prob.  (estadfstico  F) 

0.000000 

Covarianza  de  estimados 

C 

Y2 

Y3 

C 

0.156997 

0.010364 

-0.020014 

Y2 

0.010364 

0.009786 

-0.009205 

Y3 

-0.020014 

-0.009205 

0.009387 

Y 

X2 

X3 

Y1 

Y2 

Y3  Y1  SOMBRERO 

Y1RESID 

38  372  840 

424  471 

2  689  076 

1  7.4629 

12.9586 

14.8047 

17.6739 

-0.2110 

1  805  427 

19  895 

57  997 

14.4063 

9.8982 

10.9681 

14.2407 

0.1656 

23  736  129 

206  893 

2  308  272 

16.9825 

12.2400 

14.6520 

17.2577 

-0.2752 

26  981  983 

304  055 

1  376  235 

17.1107 

12.6250 

14.1349 

17.1685 

-0.0578 

217  546  032  1 

809  756  1 

3  554  116 

19.1979 

14.4087 

16.4222 

19.1962 

0.0017 

19  462  751 

180  366 

1  790  751 

16.7840 

12.1027 

14.3981 

17.0612 

-0.2771 

28  972  772 

224  267 

1  210  229 

17.1819 

12.3206 

14.0063 

16.9589 

0.2229 

14  313 157 

54  455 

421  064 

16.4767 

10.9051 

12.9505 

15.7457 

0.7310 

159  921 

2  029 

7  188 

1 1 .9824 

7.6153 

8.8802 

12.0831 

-0.1007 

47  289  846 

471  211 

2  761  281 

17.6718 

13.0631 

14.8312 

17.7366 

-0.0648 

63  015  125 

659  379 

3  540  475 

17.9589 

13.3991 

15.0798 

18.0236 

-0.0647 

1  809  052 

17  528 

146  371 

14.4083 

9.7716 

11.8939 

14.6640 

-0.2557 

10  511  786 

75  414 

848  220 

16.1680 

11.2307 

13.6509 

16.2632 

-0.0952 

105  324  866 

963 156 

5  870  409 

18.4726 

13.7780 

15.5854 

18.4646 

0.0079 

90  120  459 

835  083 

5  832  503 

18.3167 

13.6353 

15.5790 

18.3944 

-0.0778 

39  079  550 

336 159 

1  795  976 

17.4811 

12.7253 

14.4011 

17.3543 

0.1269 

22  826  760 

246  144 

1  595  118 

16.9434 

12.4137 

14.2825 

17.1465 

-0.2030 

38  686  340 

384  484 

2  503  693 

17.4710 

12.8597 

14.7333 

17.5903 

-0.1193 

69  910  555 

216 149 

4  726  625 

18.0627 

12.2837 

15.3687 

17.6519 

0.4109 

7  856  947 

82  021 

415  131 

15.8769 

11.3147 

12.9363 

15.9301 

-0.0532 

21  352  966 

1  74  855 

1  729  1 1 6 

16.8767 

12.0717 

14.3631 

1  7.0284 

-0.1517 

46  044  292 

355  701 

2  706  065 

17.6451 

12.7818 

14.8110 

1  7.5944 

0.0507 

92  335  528 

943  298 

5  294  356 

18.3409 

13.7571 

15.4822 

18.4010 

-0.0601 

48  304  274 

456  553 

2  833  525 

1  7.6930 

13.0315 

14.8570 

17.7353 

-0.0423 

17  207  903 

267  806 

1  212  281 

16.6609 

12.4980 

14.0080 

1  7.0429 

-0.3820 

47  340  157 

439  427 

2  404  1 22 

17.6729 

12.9932 

14.6927 

17.6317 

0.0411 

(continua) 
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(i continuation ) 


Y 

X2 

X3 

Y1 

Y2 

Y3 

Y1SOMBRERO 

Y1RESID 

2  644  567 

24  167 

334  008 

14.7880 

10.0927 

12.7189 

15.2445 

-0.4564 

14  650  080 

163  637 

627  806 

16.5000 

12.0054 

13.3500 

16.4692 

0.0308 

7  290  360 

59  737 

522  335 

15.8021 

10.9977 

13.1661 

15.9014 

-0.0993 

9  188  322 

96  106 

507  488 

16.0334 

11.4732 

13.1372 

16.1090 

-0.0756 

51  298  516 

407  076 

3  295  056 

17.7532 

12.9168 

15.0079 

17.7603 

-0.0071 

20  401  410 

43  079 

404  749 

16.8311 

10.6708 

12.9110 

15.6153 

1.2158 

87  756  129 

727 177 

4  260  353 

18.2901 

1  3.4969 

15.2649 

18.1659 

0.1242 

101  268  432 

820  013 

4  086  558 

18.4333 

13.6171 

15.2232 

18.2005 

0.2328 

3  556  025 

34  723 

1  84  700 

15.0842 

10.4552 

12.1265 

15.1054 

-0.0212 

124  986  166 

1  1  74  540 

6  301  421 

18.6437 

13.9764 

15.6563 

18.5945 

0.0492 

20  451  196 

201  284 

1  327  353 

16.8336 

12.2125 

14.0987 

16.9564 

-0.1229 

34  808  109 

257  820 

1  456  683 

17.3654 

12.4600 

14.1917 

17.1208 

0.2445 

104  858  322 

944  998 

5  896  392 

18.4681 

13.7589 

15.5899 

18.4580 

0.0101 

6  541  356 

68  987 

297  618 

15.6937 

11.1417 

12.6036 

15.6756 

0.0181 

37  668  126 

400  317 

2  500  071 

1  7.4443 

12.9000 

14.7318 

17.6085 

-0.1642 

4  988  905 

56  524 

311  251 

15.4227 

10.9424 

12.6484 

15.6056 

-0.1829 

62  828  1 00 

582  241 

4  126  465 

17.9559 

13.2746 

15.2329 

18.0451 

-0.0892 

172  960  157 

1  120  382 

11  588  283 

18.9686 

13.9292 

16.2655 

18.8899 

0.0786 

15  702  637 

150  030 

762  671 

16.5693 

11.9186 

13.5446 

16.5300 

0.0394 

5  418  786 

48  134 

276  293 

15.5054 

10.7817 

12.5292 

15.4683 

0.0371 

49  166  991 

425  346 

2  731  669 

17.7107 

12.9607 

14.8204 

17.6831 

0.0277 

46  164  427 

313  279 

1  945  860 

17.6477 

12.6548 

14.4812 

17.3630 

0.2847 

9  185  967 

89  639 

685  587 

16.0332 

11.4035 

13.4380 

16.2332 

-0.2000 

66  964  978 

694  628 

3  902  823 

18.0197 

13.4511 

15.1772 

18.0988 

-0.0791 

2  979  475 

15  221 

361  536 

14.9073 

9.6304 

12.7981 

15.0692 

-0.1620 

Notas:  Y 1  =  In  Y;  Y2  =  In  X2;  Y3  =  In  X3. 

Los  valores  propios  son  3.7861  y  187  5269,  que  se  usaran  en  el  capitulo  10. 


Capitulo 


Analisis  de 
regresion  multiple: 
el  problema 
de  la  inferencia 

En  este  capitulo,  continuacion  del  5,  se  amplian  las  ideas  desarrolladas  sobre  estimacion  por 
intervalos  y  pruebas  de  hipotesis  a  modelos  con  tres  o  mas  variables.  Aunque  en  muchas  formas 
los  conceptos  del  capitulo  5  se  aplican  directamente  al  modelo  de  regresion  multiple,  estos  mo¬ 
delos  poseen  algunas  caracteristicas  adicionales  unicas  y,  por  tanto,  recibiran  mas  atencion. 

8.1  Una  vez  mas,  el  supuesto  de  normalidad 


Como  ya  sabemos,  si  el  linico  objetivo  es  la  estimacion  puntual  de  los  parametros  de  los  modelos 
de  regresion,  basta  el  metodo  de  minimos  cuadrados  ordinarios  (MCO),  que  no  hace  supues- 
tos  sobre  la  distribucion  de  probabilidad  de  las  perturbaciones  it,.  Sin  embargo,  si  el  objetivo  no 
solo  es  la  estimacion  sino  ademas  la  inferencia,  entonces,  como  vimos  en  los  capitulos  4  y  5, 
debemos  suponer  que  las  u,  siguen  alguna  distribucion  de  probabilidad. 

Por  las  razones  ya  expresadas,  supusimos  que  las  u,  seguian  la  distribucion  normal  con  media 
cero  y  varianza  constante  a2.  Se  mantiene  el  mismo  supuesto  para  los  modelos  de  regresion 
multiple.  Con  el  supuesto  de  normalidad  y  el  analisis  de  los  capitulos  4  y  7  se  halla  que  los 
estimadores  de  MCO  de  los  coeficientes  de  regresion  parcial,  identicos  a  los  estimadores  de 
maxima  verosimilitud  (MV),  son  los  mejores  estimadores  lineales  insesgados  (MELI).1  Ademas, 
los  estimadores  fc.  Pi  y  P\  estan,  ellos  mismos,  normalmente  distribuidos  con  medias  iguales 
a  los  verdaderos  P2,  Pi  y  P\,  y  con  las  varianzas  dadas  en  el  capitulo  7.  Ademas,  ( n  —  3)a2 /a2 
sigue  la  distribucion  /2  con  n  —  3  gl,  y  los  tres  estimadores  de  MCO  estan  distribuidos  inde- 
pendientemente  de  a2.  Las  pruebas  son  similares  a  las  del  caso  de  dos  variables  estudiado  en  el 
apendice  3A,  seccion  3A.  Como  resultado  y  a  partir  del  capitulo  5,  se  puede  demostrar  que,  al 


1  Con  el  supuesto  de  normalidad,  los  estimadores  de  MCO  fS 2 ,  Pi  y  di  son  de  varianza  minima  en  toda 
la  clase  de  estimadores  insesgados,  sean  lineales  o  no.  En  resumen,  son  MEI  (mejores  estimadores  insesga¬ 
dos).  Vease  C.R.  Rao,  Linear  Statistical  Inference  and  Its  Applications,  John  Wiley  &  Sons,  Nueva  York,  1 965, 
p.  258. 
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reemplazar  a* 1  2  por  su  estimador  insesgado 
las  siguientes  variables 

t 

t 

t 

sigue  la  distribucion  t  con  n  —  3  gl. 

Observe  que  los  gl  son  ahora  n  —  3  porque,  al  calcular  uj  y,  por  consiguiente,  <x2,  se  ne- 
cesita  primero  estimar  los  tres  coeficientes  de  regresion  parcial,  lo  cual  impone  por  tanto  tres 
restricciones  sobre  la  suma  de  cuadrados  residual  (SCR)  (segun  esta  logica,  en  el  caso  de  cua- 
tro  variables  habra  n  —  4  gl,  y  asi  sucesivamente).  Por  consiguiente,  la  distribucion  t  sirve  para 
establecer  intervalos  de  confianza  y  para  probar  hipotesis  estadisticas  sobre  los  verdaderos 
coeficientes  de  regresion  parcial  poblacionales.  De  modo  similar,  con  la  distribucion  /2  se  prue- 
ban  hipotesis  sobre  el  verdadero  a2.  Para  demostrar  el  mecanismo  real  utilizaremos  el  siguiente 
ejemplo  ilustrativo. 


a~  en  el  calculo  de  los  errores  estandar,  cada  una  de 


Pi~Pi 

ee(/§i) 

Pi  ~  Pi 

ee(/S2) 

Pi  —  Pi 
ee(/S3) 


(8.1.1) 

(8.1.2) 

(8.1.3) 


EJEMPLO  8.1 

De  nuevo,  el  ejem¬ 
plo  de  la  mortalidad 
infantil 


En  el  capitulo  7  efectuamos  la  regresion  de  la  mortalidad  infantil  (Ml)  sobre  el  PIB  per  capita 
(PIBPC)  y  la  tasa  de  alfabetizacion  de  las  mujeres  (TAM)  para  una  muestra  de  64  pafses.  Los  re- 
sultados  de  la  regresion  de  (7.6.2)  se  reproducen  a  continuacion,  con  informacion  adicional: 


Mj,=  263.6416 
ee  =  (11.5932) 
t=  (22.7411) 
valor  p  =  (0.0000)* 


0.0056  PIBPC, 
(0.0019) 
-2.8187) 
(0.0065) 


-  2.231 6  TAM, 

(0.2099) 

(-10.6293) 

(0.0000)* 

R2  =  0.7077  R2  =  0.6981 


(8.1.4) 


donde  *  denota  un  valor  extremadamente  bajo. 

En  la  ecuacion  (8.1 .4)  seguimos  el  formato  que  se  presento  en  la  ecuacion  (5.1 1 .1),  donde 
las  cifras  en  el  primer  conjunto  de  parentesis  son  los  errores  estandar  estimados,  las  del  segundo 
conjunto  son  los  valores  f  segun  la  hipotesis  nula  de  que  el  coeficiente  de  la  poblacion  relevante 
tiene  un  valor  de  cero,  y  los  del  tercer  conjunto  son  los  valores  p  estimados.  Tambien  se  dan  los 
valores  R2  y  R2  ajustada.  Ya  interpretamos  esta  regresion  en  el  ejemplo  7.1 . 

la  significancia  estadistica  de  los  resultados  observados?  Considere  por  ejemplo  el  coefi¬ 
ciente  del  PIBPC  (—0.0056).  ^Es  estadfsticamente  significativo  este  coeficiente,  es  decir,  es  esta- 
disticamente  diferente  de  cero?  Asimismo,  £es  estadfsticamente  significativo  el  coeficiente  de  la 
TAM  de  —2.231 6?  ^Ambos  coeficientes  son  estadfsticamente  significativos?  Para  responder  esta 
y  otras  preguntas  relacionadas,  primero  consideremos  las  clases  de  pruebas  de  hipotesis  que  se 
pueden  encontrar  en  el  contexto  del  modelo  de  regresion  multiple. 


8.2  Pruebas  de  hipotesis  en  regresion  multiple: 
comentarios  generates 


Una  vez  fuera  del  mundo  simple  del  modelo  de  regresion  lineal  con  dos  variables,  las  pruebas  de 
hipotesis  adquieren  diversas  e  interesantes  formas,  como  las  siguientes: 

1.  Pruebas  de  hipotesis  sobre  un  coeficiente  de  regresion  parcial  individual  (seccion  8.3). 

2.  Pruebas  de  significancia  global  del  modelo  de  regresion  multiple  estimado,  es  decir,  ver  si 
todos  los  coeficientes  de  pendiente  parciales  son  iguales  a  cero  al  mismo  tiempo  (seccion 
8.4). 


Capftulo  8  Analisis  de  regresion  multiple:  el problema  de  la  inferencia  235 


3.  Pruebas  de  que  dos  o  mas  coeficientes  son  iguales  a  otro  (seccion  8.5). 

4.  Pruebas  de  que  los  coeficientes  de  regresion  parcial  satisfacen  ciertas  restricciones  (seccion 

8.6). 

5.  Pruebas  de  la  estabilidad  del  modelo  de  regresion  estimado  a  traves  del  tiempo  o  en  diferentes 
unidades  de  corte  transversal  (seccion  8.7). 

6.  Pruebas  sobre  la  forma  funcional  de  los  modelos  de  regresion  (seccion  8.8). 

Como  el  uso  de  este  tipo  de  pruebas  es  tan  frecuente  en  el  analisis  empirico,  dedicamos  una 
seccion  a  cada  tipo. 


8.3  Pruebas  de  hipotesis  sobre  coeficientes  de 
regresion  individuales 


Con  el  supuesto  que  ut  ~  N(0,  a2),  entonces,  como  se  observo  en  la  seccion  8.1,  podemos  utilizar 
la  prueba  t  para  demostrar  una  hipotesis  sobre  cualquier  coeficiente  de  regresion  parcial  indivi¬ 
dual.  Para  ilustrar  el  procedimiento  considere  la  regresion  sobre  la  mortalidad  infantil  (8.1.4). 
Postulemos  que 


H0:  &=  0  y  H\-Pi  7^  0 


La  hipotesis  nula  establece  que,  al  mantener  constante  X2  (la  tasa  de  alfabetizacion  de  las  mu- 
jeres),  X2  (PIBPC)  no  tiene  influencia  (lineal)  sobre  Y  (la  mortalidad  infantil).2  Para  probar  la 
hipotesis  nula  se  utiliza  la  prueba  t  dada  en  (8. 1 .2).  Segun  el  capitulo  5,  si  el  valor  de  t  calculado 
excede  el  valor  de  t  critico  en  el  nivel  de  significance  escogido,  se  rechaza  la  hipotesis  nula;  de 
lo  contrario,  no  se  puede  rechazar.  Para  el  ejemplo  ilustrativo,  con  (8.1.2)  y  la  advertencia  de  que 
=  0  con  la  hipotesis  nula,  tenemos 


t 


-0.0056 

0.0020 


-2.8187 


(8.3.1) 


como  se  muestra  en  la  ecuacion  (8.1.4). 

Note  que  tenemos  64  observaciones.  Por  tanto,  los  grados  de  libertad  en  este  ejemplo  son  61 
b'.por  que?).  Si  se  consulta  la  tabla  t,  en  el  apendice  D,  no  contamos  con  los  datos  correspon- 
dientes  a  los  61  gl.  Lo  mas  cercano  que  tenemos  es  para  60  gl.  Si  utilizamos  esa  informacion  y 
suponemos  a,  el  nivel  de  significance  (es  decir,  la  probabilidad  de  cometer  un  error  de  tipo  I)  de 
5%,  el  valor  critico  t  es  2.0  para  una  prueba  de  dos  colas  (busque  ta/2  para  60  gl),  o  1.671  para  la 
prueba  de  una  cola  (busque  tff  para  60  gl). 

Para  este  ejemplo,  la  hipotesis  alterna  es  bilateral.  Por  consiguiente,  utilizamos  el  valor  t  de 
dos  colas.  Como  el  valor  t  calculado  de  2.8187  (en  terminos  absolutos)  excede  el  valor  critico  t 
de  2,  rechazamos  la  hipotesis  nula  de  que  el  PIBPC  no  tiene  ningim  efecto  sobre  la  mortalidad 
infantil.  En  terminos  mas  positivos,  si  se  mantiene  constante  la  tasa  de  alfabetizacion  de  las  mu- 
jeres,  el  PIB  per  capita  tiene  un  efecto  significativo  (negativo)  sobre  la  mortalidad  infantil,  como 
se  esperaria  a  priori.  De  forma  grafica,  la  situation  es  la  de  la  figura  8.1. 

En  la  practica,  no  se  tiene  que  suponer  un  valor  particular  de  a  para  llevar  a  cabo  la  prueba  de 
hipotesis.  Tan  solo  se  emplea  el  valor  p  dado  en  (8.1.4),  que  en  el  caso  actual  es  de  0.0065.  La 
interpretation  de  este  valor  p  (es  decir,  el  nivel  exacto  de  significancia)  es  que  si  la  hipotesis  nula 
fuese  verdadera,  la  probabilidad  de  obtener  un  valor  t  igual  a  2.8187  o  mayor  (en  terminos  ab¬ 
solutos)  seria  de  solo  0.0065  o  0.65%,  que  de  hecho  es  una  probabilidad  pequena,  mucho  menor 
que  el  valor  artificialmente  adoptado  de  a  =  5%. 


2  En  la  mayorfa  de  las  investigaciones  empfricas,  la  hipotesis  nula  se  plantea  de  esta  forma,  es  decir,  tomando 
la  posicion  extrema  (una  especie  de  espantapajaros)  de  que  no  hay  relacion  entre  la  variable  dependiente 
y  la  variable  explicativa  en  consideracion.  La  idea  aquf,  para  empezar,  es  encontrar  si  la  relacion  entre  las  dos 
es  trivial. 


236  Parte  Uno  Modelos  de  regresion  uniecuacionales 


FIGURA  8.1 

Intervalo  de  confianza  a 
95%  para  t  (60  gl). 


m 


Este  ejemplo  es  una  oportunidad  para  decidir  si  deseamos  utilizar  la  prueba  t  de  una  o  dos 
colas.  Como,  a  priori,  se  espera  que  la  mortalidad  infantil  y  el  P1B  per  capita  esten  negativamente 
relacionados  (/por  que?),  se  debe  utilizar  la  prueba  de  una  cola.  Es  decir,  las  hipotesis  nula  y 
alterna  deben  ser: 


Ho'. y  H\\  >  0 

Como  el  lector  ya  sabe,  podemos  rechazar  la  hipotesis  nula  con  base  en  la  prueba  t  de  una  cola, 
en  este  caso.  Si  rechazamos  la  hipotesis  nula  en  una  prueba  bilateral,  contaremos  con  pruebas 
suficientes  para  rechazar  el  escenario  unilateral  siempre  que  el  estadistico  este  en  la  misma  di¬ 
rection  que  la  prueba. 

En  el  capitulo  5  se  observo  una  conexion  muy  estrecha  entre  las  pruebas  de  hipotesis  y  la 
estimation  por  intervalos  de  confianza.  Para  este  ejemplo,  el  intervalo  a  95%  de  confianza  para 
P2  es 


P2  —  C/2  ee  (P2)  <  P2  <  P2  +  C/2  ee  (^2) 

que  para  este  ejemplo  se  convierte  en 

-0.0056  -  2(0.0020)  <  fa  <  -0.0056  +  2(0.0020) 

es  decir, 

-0.0096  <  p2  <  -0.0016  (8.3.2) 

o  sea,  el  intervalo  de  —0.0096  a  —0.0016  incluye  al  verdadero  coeficiente  /C,  con  un  coeficiente 
de  confianza  de  95%.  Por  tanto,  si  se  seleccionan  100  muestras  de  tamano  64  y  se  forman  100 
intervalos  de  confianza  como  el  (8.3.2),  esperamos  que  95  de  ellos  contengan  al  verdadero  pa- 
rametro  de  poblacion  /C-  Como  el  intervalo  (8.3.2)  no  incluye  el  valor  cero  de  la  hipotesis  nula, 
rechazamos  tal  hipotesis  (que  el  verdadero  P2  es  cero  con  95%  de  confianza). 

Por  consiguiente,  si  se  utiliza  la  prueba  t  de  significance  como  en  (8.3.1)  o  la  estimation  por 
intervalos  de  confianza  como  en  (8.3.2),  se  llega  a  la  misma  conclusion.  No  obstante,  esto  no 
debe  sorprender  en  vista  de  la  estrecha  relation  entre  la  estimation  por  intervalos  de  confianza  y 
las  pruebas  de  hipotesis. 

Segun  el  procedimiento  recien  descrito  se  prueba  la  hipotesis  respecto  de  otros  parametros 
del  modelo  de  regresion  para  la  mortalidad  infantil.  Los  datos  necesarios  ya  se  proporcionaron 
en  la  ecuacion  (8.1.4).  Por  ejemplo,  suponga  que  deseamos  probar  la  hipotesis  de  que  la  tasa 
de  alfabetizacion  de  las  mujeres,  si  se  mantiene  constante  la  influencia  del  P1BPC,  no  tiene  efecto 
alguno  sobre  la  mortalidad  infantil.  Podemos  rechazar  con  confianza  esta  hipotesis,  pues,  segun 
esta  hipotesis  nula  el  valor  p,  al  obtener  un  valor  t  absoluto  igual  o  mayor  que  10.6,  es  practica- 
mente  cero. 

Antes  de  continuar,  recuerde  que  el  procedimiento  de  la  prueba  t  se  basa  en  el  supuesto  de  que 
el  tennino  de  error  u,  sigue  una  distribution  normal.  Aunque  u,  no  se  puede  observar  de  manera 
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FIGURA  8.2 

Histograma  de  los  re¬ 
sidues  de  la  regresion 
(8.1.4). 


Serie:  Residuos 

Muestra  1  64 

Observaciones  64 

Media 

-4.95  x  10^14 

Mediana 

0.709227 

Maximo 

96.80276 

Minimo 

-84.26686 

Desv.  est. 

41.07980 

Asimetrfa 

0.227575 

Curtosis 

2.948855 

Jarque-Bera 

0.559405 

Probabilidad 

0.756009 

directa,  se  observa  su  representante,  u„  es  decir,  los  residuos.  Para  la  regresion  sobre  la  mortali- 
dad,  el  histograma  de  los  residuos  se  muestra  en  la  figura  8.2. 

A  partir  del  histograma,  parece  que  los  residuos  estan  normalmente  distribuidos.  Tambien 
podemos  calcular  la  prueba  Jarque-Bera  (JB)  de  normalidad,  como  se  muestra  en  la  ecuacion 
(5.12.1).  En  este  caso,  el  valor  JB  es  0.5594,  con  un  valor p  de  0.76. 3  Por  tanto,  al  parecer,  el  ter- 
mino  de  error  en  este  ejemplo  sigue  la  distribucion  normal.  Por  supuesto,  se  debe  tener  en  cuenta 
que  la  prueba  JB  es  para  muestras  grandes,  y  que  la  muestra  de  64  observaciones  pueda  no  ser 
necesariamente  grande. 


8.4 


Prueba  de  significancia  general  de  la  regresion  muestral 


En  la  seccion  anterior  abordamos  la  prueba  de  significancia  de  los  coeficientes  de  regresion  par- 
cial  estimados  individualmente,  es  decir,  segun  la  hipotesis  separada  de  que  cada  verdadero  coefi- 
ciente  de  regresion  parcial  de  la  poblacion  era  cero.  Pero  ahora  considere  la  siguiente  hipotesis: 

H0: 02=03=0  (8.4.1) 

Esta  hipotesis  nula  es  una  hipotesis  conjunta  de  que  f}2  y  Pi  son  iguales  a  cero  en  forma  conjunta 
o  simultanea.  Una  prueba  de  tal  hipotesis  se  denomina  prueba  de  significancia  general  de  la 
linea  de  regresion  observada  o  estimada,  es  decir,  si  Y  esta  relacionada  o  no  linealmente  con  X2 
y  Xj  a  la  vez. 

^Es  demostrable  la  hipotesis  conjunta  en  (8.4.1)  al  probar  la  significancia  de  /32  y  Pi  indivi¬ 
dualmente,  como  en  la  seccion  8.3?  La  respuesta  es  no,  y  el  razonamiento  es  el  siguiente: 

Al  probar  la  significancia  individual  de  un  coeficiente  de  regresion  parcial  observado  en 
la  seccion  8.3,  supusimos  implicitamente  que  cada  prueba  de  significancia  se  basaba  en  una 
muestra  diferente  (es  decir,  independiente).  Asi,  en  la  prueba  de  significancia  de  p2  segun  la 
hipotesis  de  que  p2  —  0,  supusimos  tacitamente  que  la  prueba  se  basaba  en  una  muestra  diferente 
de  la  utilizada  en  la  prueba  de  significancia  de  p2  conforme  a  la  hipotesis  nula  de  que  p2  =  0. 
Pero  para  probar  la  hipotesis  conjunta  de  (8.4.1),  si  empleamos  los  mismos  datos  muestrales, 
violaremos  el  supuesto  del  procedimiento  de  pruebas.4  El  asunto  puede  plantearse  de  otra  forma: 


3  Para  este  ejemplo,  el  valor  de  asimetrfa  es  de  0.2276,  y  el  de  curtosis,  de  2.9488.  Recuerde  que  para  una 
variable  normalmente  distribuida  los  valores  de  asimetrfa  y  curtosis  son  0  y  3,  respectivamente. 

4  En  cualquier  muestra  dada  la  cov  (p2,  Pi)  puede  no  ser  cero;  es  decir,  p2  y  Pi  pueden  estar  correlacionadas. 
Vease  (7.4.1  7.) 


238 


Parte  Uno  Modelos  de  regresion  uniecuacionales 


en  (8.3.2)  establecimos  un  intervalo  de  confianza  a  95%  para  ft.  Pero  si  utilizamos  los  mismos 
datos  muestrales  para  establecer  un  intervalo  de  confianza  para  ft,  es  decir,  con  un  coeficiente 
de  confianza  de  95%,  no  es  posible  asegurar  que  ft  y  ft  se  encuentren  dentro  de  sus  respectivos 
intervalos  de  confianza  con  una  probabilidad  de  (1  —  «)(1  —  a)  —  (0.95)(0.95). 

En  otras  palabras,  aunque  las  afirmaciones 

Pr  [ft  -  4/2ee(ft)  <  ft  <  ft  +  ta/ '2ee(ft)]  —  l -  a 
Pr  [ft  -  ta/2  ee(ft)  <  ft  <  ft  +  ta/ 2ee(ft)]  —  l -  a 

son  individualmente  ciertas,  no  es  cierto  que  la  probabilidad  de  que  ft  y  ft  se  encuentren  al 
mismo  tiempo  en  los  intervalos 

[ft  ±  ta/2  ee  (/32),  ft  ±  ta/2  ee  (ft)] 

sea  (1  —  of,  porque  los  intervalos  pueden  no  ser  independientes  cuando  se  derivan  con  la  misma 
informacion.  Para  plantear  el  asunto  de  otra  forma, 

.  .  .  probar  una  serie  de  hipotesis  simples  [individuales]  no  equivale  a  probar  las  mismas  hipotesis 
en  forma  conjunta.  La  razon  intuitiva  para  esto  es  que,  en  una  prueba  conjunta  de  varias  hipotesis, 
cualquier  hipotesis  simple  se  ve  “afectada”  por  la  informacion  de  las  demas  hipotesis.5 

El  resultado  final  del  argumento  anterior  es  que,  para  un  ejemplo  dado  (muestra),  solo  se 
obtiene  un  intervalo  de  confianza  o  una  prueba  de  significancia.  ft! 6 mo,  entonces,  probar  la  hi¬ 
potesis  nula  simultanea  de  que  ft  =  ft  =  0?  En  seguida  responderemos  esta  pregunta. 


El  metodo  del  analisis  de  varianza  en  las  pruebas  de  significancia 
general  de  una  regresion  multiple  observada:  la  prueba  F 

Por  las  razones  recien  explicadas,  no  podemos  utilizar  la  prueba  /  usual  para  probar  la  hipotesis 
conjunta  de  que  los  verdaderos  coeficientes  parciales  de  pendiente  sean  simultaneamente  iguales 
a  cero.  Sin  embargo,  esta  hipotesis  conjunta  se  prueba  con  la  tecnica  del  analisis  de  varianza 
(ANOVA),  presentada  en  la  seccion  5.9,  lo  cual  se  demuestra  de  la  siguiente  manera. 

Recuerde  la  identidad 


X! y'  =  &  -V‘X2'  +  A  Y2  >'%'  +  X!  (8.4.2) 

SCT  =  SCE  +  SCR 

SCT  tiene,  como  es  usual,  n  —  1  gl,  y  SCR  tiene  n  —  3  gl,  por  las  razones  ya  expuestas.  SCE  tiene 
2  gl,  pues  es  funcion  de  ft  y  ft.  Por  consiguiente,  segun  el  procedimiento  ANOVA  estudiado  en 
la  seccion  5.9,  se  elabora  la  tabla  8.1. 

Ahora  puede  demostrarse6  que,  segun  el  supuesto  de  la  distribucion  normal  para  u,  y  la  hipo¬ 
tesis  nula  ft  =  ft  =  0,  la  variable 

P  _  (ft  E yi*2i  +  ft  a)/ 2  =  SCE/ gl  3 

J2uj/(n-  3)  SCR/gl 

se  distribuye  como  la  distribucion  F  con  2  y  n  —  3  gl. 


5  Thomas  B.  Fomby,  R.  Carter  Hill  y  Stanley  R.  Johnson,  Advanced  Econometric  Methods,  Springer-Verlag, 
Nueva  York,  1984,  p.  37. 

6  Vease  K.  A.  Brownlee,  Statistical  Theory  and  Methodology  in  Science  and  Engineering,  John  Wiley  &  Sons, 
Nueva  York,  1960,  pp.  278-280. 
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TAB  LA  8.1 

Tabla  ANOVA  para  la 
regresion  con  tres 
variables 


Origen  de  la  variacion  SC  gl 

Debido  a  la  regresion  (SCE)  p2  L  Yix2i  +  h  L  Yix3i  2 

Debido  a  residuos  (SCR)  uf  n  —  3 

Total  y}  n  —  1 


SCM 

fe  E  yix2i  +  fc  E  Yixsi 

2 


(',Quc  utilidad  puede  tener  la  razon  F  anterior?  Puede  demostrarse7  que,  segun  el  supuesto  de 
que  los  Uj  ~  N(0,  a2), 


y ^  u2  ,  , 

E— — —  E(o2)  —  a2 
n  —  3 


(8.4.4) 


Con  el  supuesto  adicional  que  /32  =  =  0  se  demuestra  que 

e(&2  EJT2,  +  h  T,yix 3i)  _ 


(8.4.5) 


Por  consiguiente,  si  la  hipotesis  nula  es  verdadera,  las  ecuaciones  (8.4.4)  y  (8.4.5)  proporcionan 
estimaciones  identicas  del  verdadero  a2.  Esta  afirmacion  no  debe  sorprender,  pues,  si  existe  una 
relacion  trivial  entre  Y  y  X2  y  X2,  la  unica  fuente  de  variacion  en  Y  se  debe  a  las  fuerzas  aleatorias 
representadas  por  u,.  Sin  embargo,  si  la  hipotesis  nula  es  falsa,  es  decir,  si  X2  y  X2  definitivamente 
ejercen  influencia  sobre  Y,  no  se  mantendra  la  igualdad  entre  (8.4.4)  y  (8.4.5).  En  este  caso,  la 
SCE  sera  relativamente  mas  grande  que  la  SCR,  teniendo  en  cuenta  sus  respectivos  gl.  Por  con¬ 
siguiente,  el  valor  F  de  (8.4.3)  proporciona  una  prueba  de  la  hipotesis  nula  de  que  los  verdaderos 
coeficientes  de  pendiente  son  simultaneamente  cero.  Si  el  valor  F  calculado  de  (8.4.3)  excede  el 
valor  F  critico  de  la  tabla  F  en  el  nivel  de  significance  de  a%,  se  rechaza  Ho;  de  otra  forma  no  se 
rechaza.  Por  otra  parte,  si  el  valor p  del  F  observado  es  lo  bastante  bajo,  podemos  rechazar  Hq. 

La  tabla  8.2  resume  la  prueba  F.  De  regreso  al  ejemplo  ilustrativo,  obtenemos  la  tabla  ANOVA, 
como  se  muestra  en  la  tabla  8.3. 


TABLA  8.2 

Resumen  del 
estadistico  F 


Hipotesis  nula 

Hipotesis  alternativa 

Region  critica. 

Ho 

Hi 

Se  rechaza  Ho  si 

2  2 

2  2 

sj 

°i  -  a2 

°i  >  ff2 

-  2  ^  '  ot,ng\,dg\ 

*  2 

a2  =  a2 

a2  #  a2 

5i2 

_  2  >  '  a/2,ng\,dg\ 

^  2 

0  ^  ^"(1  —  a/2),ng\,dg\ 

Notas: 

1 .  (Tj2  y  (72  son  las  dos  varianzas  poblacionales. 

2.  Sj2  y  $2  son  las  dos  varianzas  muestrales. 

3.  n  gl  y  d  gl  denotan,  respectivamente,  el  numerador  y  el  denominador  gl. 

4.  Al  calcular  la  razon  F,  coloque  el  valor  S2  mas  grande  en  el  numerador. 

5.  Los  valores  criticos  F  se  dan  en  la  ultima  columna.  El  primer  subindice  de  F  es  el  nivel  de  significance,  y  los  siguientes  son  los  gl 
del  numerador  y  del  denominador. 

6.  Observe  que  F^-a/2),ngi,dg\  =  l/Fa/2,dgi,ngi- 


7  Vease  K.  A.  Brownlee,  Statistical  Theory  and  Methodology  in  Science  and  Engineering,  John  Wiley  &  Sons, 
Nueva  York,  1960,  pp.  278-280. 
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TAB  LA  8.3 
Tabla  ANOVA  para  el 
ejemplo  de  mortalidad 
infantil 


Origen  de  la  variacion 

SC 

gi 

SCM 

Debido  a  la  regresion 

25 7  362.4 

2 

128  681.2 

Debido  a  residuos 

106  315.6 

61 

1  742.88 

Total 

363  678 

63 

Con  (8.4.3)  obtenemos 


128  681.2 
1  742.88 


73.8325 


(8.4.6) 


El  valor  p,  al  obtener  un  valor  F  igual  o  mayor  que  73.8325,  es  casi  cero,  lo  cual  implica  el 
rechazo  de  la  hipotesis  que  establece  que  el  PIBPC  y  la  TAM,  conjuntamente,  no  tienen  efecto 
sobre  la  mortalidad  infantil.  Si  empleamos  el  nivel  usual  de  significancia  de  5%,  el  valor  Fcn'tico 
para  2  gl  en  el  numerador  y  60  gl  en  el  denominador  (sin  embargo,  los  gl  reales  son  61)  es  de  casi 
3.15,  o  de  4.98  mas  o  menos,  si  utiliza  el  nivel  de  significancia  de  1%.  Obvio,  el  valor  observado 
F  de  casi  74  excede  por  mucho  cualquiera  de  estos  valores  criticos  F. 

El  procedimiento  de  prueba  F  se  generaliza  de  la  siguiente  manera. 


Prueba  de  significancia  general  de  una  regresion  multiple: 
la  prueba  F 


Regia  de  decision 


Con  el  modelo  de  regresion  con  /(variables: 


Yj  —  fit  +  2C 2/  +  /33  X  3 /+■■■+  PkXki  +  Oj 


Para  probar  la  hipotesis 


Ho-  Pz  =  ft  =  ■  ■  •  =  ft  =  0 


(es  decir,  todos  los  coeficientes  de  pendiente  son  simultaneamente  cero)  frente  a 
Bp  no  todos  los  coeficientes  de  pendiente  son  simultaneamente  cero 

calcule 


=  SCE/gl  =  SCE/(/c  —  1) 

SCR/gl  SCR /{n-k)  V  '  '  ' 

si  F  >  Fa  (k  —  1 ,  n  —  k),  rechace  Ho;  de  lo  contrario,  no  la  rechace,  donde  F„(/c  —  1 ,  n  —  k)  es  el 
valor  F  crftico  en  el  nivel  de  significancia  a,  y  (k  —  1)  gl  en  el  numerador  y  (n  —  k)  gl  en  el  de¬ 
nominador.  Por  otra  parte,  si  el  valor  p  del  Fobtenido  de  (8.4.7)  es  lo  bastante  bajo,  se  puede 
rechazar  Hq. 


Sobra  decir  que  en  el  caso  de  tres  variables  (Y  y  A),  A3)  k  es  3,  en  cl  caso  de  cuatro  variables 
k  es  4,  y  asi  sucesivamente. 

A  proposito,  observe  que  la  mayoria  de  los  paquetes  de  regresion  calcula  el  valor  F  (dado  en 
la  tabla  de  analisis  de  varianza)  junto  con  los  estadisticos  usuales  de  regresion,  como  los  coefi¬ 
cientes  estimados,  sus  errores  estandar,  los  valores  t,  etc.  Suele  suponerse  que  la  hipotesis  nula 
para  el  calculo  t  es  =  0. 
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Prueba  de  hipotesis  individual  y  conjunta 

En  la  seccion  8.3  analizamos  la  prueba  de  significancia  de  un  solo  coeficiente  de  regresion,  y  en 
la  seccion  8.4,  la  prueba  de  significancia  conjunta  o  general  de  la  regresion  estimada  (es  decir, 
todos  los  coeficientes  de  pendiente  son  simultaneamente  iguales  a  cero).  Repetimos  que  estas 
pruebas  son  diferentes.  Asi,  con  base  en  la  prueba  t  o  intervalo  de  confianza  (de  la  seccion  8.3), 
es  posible  aceptar  la  hipotesis  de  que  un  coeficiente  de  pendiente  particular,  /J*,  es  cero,  y  aun 
rechazar  la  hipotesis  conjunta  de  que  todos  los  coeficientes  de  pendiente  son  cero. 

La  leccion  es  que  el  “mensaje”  conjunto  de  los  intervalos  de  confianza  individuales  no  sustituye 
una  region  de  confianza  conjunta  [implicada  por  la  prueba  F]  en  el  momenta  de  realizar  pruebas  de 
hipotesis  conjuntas  y  efectuar  afirmaciones  de  confianza  conjuntas.8 


Una  relacion  importante  entre  R2  y  F 

Existe  una  relacion  estrecha  entre  el  coeficiente  de  determinacion  R2  y  la  prueba  F  en  el  analisis 
de  varianza.  En  el  supuesto  de  que  las  perturbaciones  m,  estan  normalmente  distribuidas,  y  segun 
la  hipotesis  nula  de  que  yS2  =  fa  =  0,  vimos  que 


SCE/2 
SCR/(w  -  3) 


(8.4.8) 


sigue  una  distribucion  F  con  2  y  n  —  3  gl. 

De  modo  mas  general,  en  el  caso  de  k  variables  (inclusive  el  intercepto),  si  suponemos  que  las 
perturbaciones  estan  normalmente  distribuidas  y  que  la  hipotesis  nula  es 

H0:  fi2  =  A  =  •  ■  ■  =  fo  =  0  (8.4.9) 


entonces  se  cumple  que 


SCE/(A'  -  1) 
SCR/(w  -  k) 


(8.4.7)  =  (8.4.10) 


sigue  la  distribucion  F  con  k  —  I  y  n  —  A  gl.  ( Nota :  El  numero  total  de  parametros  que  se  va  a 
estimar  es  k,  de  los  cuales  uno  es  el  termino  de  intercepto.) 

Manipulamos  (8.4.10)  de  la  siguiente  manera: 


n-k  SCE 
k-  1  SCR 
n-k  SCE 
k-  1  SCT-SCE 

n-k  SCE/SCT 
k-  11-  (SCE/SCT) 
n  —  k  R 2 
k  -  1  1  -  R2 

R2/(k-  1) 

(1  -R2)/(n-k) 


(8.4.11) 


8  Fomby  et  a!.,  op.  cit.,  p. 


42. 
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TAB  LA  8.4 

Tabla  ANOVA  en  ter  mi- 

nos  de  if 2 


Regia  de  decision 


Origen  de  la  variacion  SC  gl  SCM* 

Debido  a  la  regresion  R2(J2  yf)  2  F2(£]y2)/2 

Debido  a  residuos  (1  —  R2)(J2  v} )  n  —  3  (1  —  R2)(J2  vf)Kn  ~  3) 

Total  y2  n  —  1 

*Observe  que  para  calcular  el  valor  Fno  hay  necesidad  de  mullipiicar  R2  y  (1  —  R2)  por  // yf  porque  este  termino  desaparece,  como 
se  muestra  en  la  ecuacion  (8.4.12). 


donde  se  emplea  la  definicion  R2  =  SCE/SCT.  La  ecuacion  (8.4.11)  muestra  la  forma  en  que  F 
y  R2  estan  relacionadas.  Las  dos  varlan  en  relation  directa.  Cuando  R2  =  0,  F  es  cero  ipso  facto. 
Cuanto  mayor  sea  la  R2,  mayor  sera  el  valor  F.  En  el  llmite,  cuando  R2  =  1,  F  es  infinita.  A  si,  la 
prueba  F,  que  mide  la  significancia  general  de  la  regresion  estimada,  es  tambien  una  prueba  de 
significancia  de  R2.  En  otras  palabras,  la  prueba  de  la  hipotesis  nula  (8.4.9)  equivale  a  probar  la 
hipotesis  nula  de  que  el  R2  (poblacional)  es  cero. 

Para  el  caso  de  tres  variables  (8.4.1 1)  se  convierte  en 


R2/2 

( 1  —  R2)/(n  —  3) 


(8.4.12) 


En  virtud  de  la  estrecha  conexion  entrc  F  y  R2,  la  tabla  ANOVA  (tabla  8.1)  se  reformula  como  la 
tabla  8.4. 

Para  nuestro  ejemplo  ilustrativo,  al  utilizar  (8.4.12)  obtenemos: 


0.7077/2 
(1  -  0.7077)/61 


73.8726 


que  es  casi  el  mismo  que  obtuvimos  antes,  excepto  por  los  errores  de  redondeo. 

Una  ventaja  de  la  prueba  Tcxprcsada  en  terminos  de  R2  es  su  facilidad  de  calculo:  todo  lo  que 
se  necesita  saber  es  el  valor  de  R2.  Por  consiguiente,  la  prueba  de  significancia  general  F  dada  en 
(8.4.7)  se  expresa  en  terminos  de  R2  como  se  indica  en  la  tabla  8.4. 


Prueba  de  significancia  general  de  una  regresion  multiple 
en  terminos  de  R2 


Para  probar  la  significancia  general  de  una  regresion  en  terminos  de  R2:  una  prueba  alterna  pero 
equivalente  a  (8.4.7). 

Dado  el  modelo  de  regresion  con  F  variables: 

Yj  =  bi  +  b 2  Rn  +  bi  ^3/  +  '  '  '  +  bx  Rki  +  a, 

Para  probar  la  hipotesis 

Ho-  b2  =  bi  =  ■  ■  ■  =  bk  =  0 

frente  a 


Hy.  no  todos  los  coeficientes  de  pendiente  son  simultaneamente  cero 

calcular 


R2/(k-  1) 

(1  -  R2)/(n  —  k) 


(8.4.13) 


Si  F  >  n-k),  rechace  Ho;  de  lo  contrario,  puede  aceptar  Ho,  donde  F„(h,  n-k)  es  el  valor  F 

critico  en  el  nivel  de  significancia  a,  y  (k  —  1 )  gl  es  el  numerador  y  (n  —  k)  gl  el  denominador.  Por 
otra  parte,  si  el  valor  p  del  Fobtenido  de  (8.4.1  3)  es  lo  bastante  bajo,  rechace  Hq. 


Capftulo  8  Analisis  de  regresion  multiple:  el problema  de  la  inferencia  243 


Antes  de  continuar,  reconsideremos  el  ejemplo  7.5  del  capltulo  7.  De  la  regresion  (7.10.7)  se 
observa  que  el  PIBPC  (relativo  al  PIB  per  capita)  y  el  PIBPC  al  cuadrado  explican  solo  10.92% 
de  la  variacion  en  la  tasa  de  crecimiento  del  PIB  para  una  muestra  de  190  palses.  Esta  R2  de 
0.1092  parece  un  valor  “bajo”.  (',Es  estadlsticamente  distinto  de  cero?  <;C6mo  averiguarlo? 

Recuerde  el  analisis  anterior  en  el  apartado  “Una  relacion  importante  entre  R2  y  F”,  respecto 
de  la  relacion  entre  R2  y  el  valor  F  como  se  dio  en  (8.4.11)  u  (8.4.12)  para  el  caso  especifico  de 
dos  regresoras.  Como  se  observo,  si  R2  es  cero,  F  es  cero  ipso  facto,  lo  cual  sera  el  caso  si  las 
regresoras  no  tienen  ningun  efecto  sobre  la  regresada.  Por  tanto,  si  anadimos  R2  =  0.1092  en  la 
formula  (8.4.12),  obtenemos 


0.1092/2 
(1  -  0.1092)/187 


11.4618 


(8.4.13) 


Segun  la  hipotesis  nula  de  que  R2  —  0,  el  valor  F  anterior  sigue  la  distribucion  F  con  2  y  1 87  gl  en 
el  numerador  y  denominador,  respectivamente.  ( Nota :  Hay  190  observaciones  y  dos  regresoras.) 
De  la  tabla  F  se  observa  que  este  valor  A  es  significativo  en  un  nivel  de  casi  5%;  de  hecho,  el  valor 
p  es  0.00002.  Por  tanto,  podemos  rechazar  la  hipotesis  nula  de  que  las  dos  regresoras  no  tienen 
efecto  sobre  la  regresada,  a  pesar  de  que  R2  es  de  solo  0.1092. 

Este  ejemplo  permite  una  importante  observation  empirica:  en  los  datos  transversales  que 
implican  varias  observaciones,  por  lo  general  se  obtienen  R2  bajas,  debido  a  la  diversidad  de  las 
unidades  transversales.  En  consecuencia,  no  hay  que  sorprenderse  o  preocuparse  si  se  tiene  una 
R2  baja  en  regresiones  transversales.  Lo  relevante  es  que  el  modelo  este  bien  especificado,  que  las 
regresoras  tengan  los  signos  correctos  (es  decir,  los  teoricamente  esperados)  y  que  (con  un  poco 
de  suerte)  los  coeficientes  de  regresion  sean  estadlsticamente  significativos.  El  lector  debe  verifi- 
car  que,  de  manera  individual,  ambas  regresoras  de  (7.10.7)  sean  estadlsticamente  significativas 
en  un  nivel  de  5%  o  mejor  (es  decir,  menor  que  5%). 


La  contribucion  "incremental"  o  "marginal" 
de  una  variable  explicativa 

En  el  capitulo  7  afirmamos  que  por  lo  general  no  podemos  asignar  el  valor  R2  entre  las  distintas 
regresoras.  En  el  ejemplo  de  la  mortalidad  infantil  descubrimos  que  la  R2  valia  0.7077,  pero  no 
fue  posible  saber  que  parte  de  dicho  valor  se  debia  a  la  regresora  PIBPC  y  que  parte  a  la  TAM, 
debido  a  la  posible  correlation  entre  las  dos  regresoras  de  las  muestras  disponibles.  Se  aclara  este 
asunto  con  la  tecnica  del  analisis  de  varianza. 

Para  el  ejemplo  presente,  vimos  que  individualmente  X 2  (PIBPC)  y  A3  (TAM)  eran  estadisti- 
camente  significativas  con  base  en  pruebas  t  ( separadas ).  Tambien  observamos  que,  con  base  en 
la  prueba  F,  colectivamente  las  dos  regresoras  tienen  un  efecto  importante  sobre  la  regresada  Y 
(mortalidad  infantil). 

Ahora  suponga  que  introducimos  PIBPC  y  TAM  de  manera  secuencial;  es  decir,  primero  ha- 
cemos  la  regresion  de  la  mortalidad  infantil  sobre  PIBPC  y  evaluamos  su  significancia,  y  despues 
anadimos  TAM  al  modelo  para  averiguar  si  contribuye  en  algo  (por  supuesto,  puede  invertirse  el 
orden  en  el  que  se  anaden  PIBPC  y  TAM).  Por  contribucion  nos  referimos  al  posible  incremento 
“significativo”  de  la  SCE  (y  por  tanto  de  la  R2)  en  relacion  con  la  SCR  si  anadimos  una  variable 
al  modelo.  Esta  contribucion  puede  llamarse  con  toda  propiedad  contribucion  incremental  o 
marginal  de  una  variable  explicativa. 

El  tema  de  la  contribucion  incremental  es  importante  en  la  practica.  En  la  mayoria  de  las 
investigaciones  empiricas,  el  investigador  puede  no  estar  por  completo  seguro  de  que  se  justi- 
fique  agregar  una  variable  X al  modelo,  pues  ya  hay  en  el  muchas  otras  variables  A.  No  se  desea  in- 
cluir  variable(s)  cuya  contribucion  a  la  SCE  sea  poca.  Por  la  misma  causa,  tampoco  se  quiere 
excluir  variable(s)  que  aumente(n)  sustancialmente  la  SCE.  Pero,  ^como  decidir  si  una  variable 
A  reduce  significativamente  la  SCR?  La  tecnica  del  analisis  de  varianza  puede  extenderse  con 
facilidad  para  responder  esta  pregunta. 
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TAB  LA  8.5 
Tabla  ANOVA  para  la 
ecuacion  de  regresion 
(8.4.14) 


Origen  de  la  variacion 

SC 

gi 

SCM 

SCE  (debido  al  PIBPC) 

60  449.5 

1 

60  449.5 

SCR 

303  228.5 

62 

4  890.7822 

Total 

363  678 

63 

Suponga  que  primero  hace  la  regresion  de  la  mortalidad  infantil  sobre  el  PIBPC  y  obtiene  la 
siguiente  regresion: 


MI,  =  157.4244  —  0.01 14  PIBPC  (8.4.14) 

t  =  (15.9894)  (—3.5156)  r2  =  0.1662 

valor p  —  (0.0000)  (0.0008)  r2  ajust.  =  0.1528 

Como  muestran  estos  resultados,  PIBPC  tiene  un  efecto  importante  sobre  Ml.  La  tabla  ANOVA 
correspondiente  a  la  regresion  anterior  se  da  en  la  tabla  8.5. 

Si  suponemos  que  las  perturbaciones  w,  estan  normalmente  distribuidas  y  establecemos  la 
hipotesis  de  que  PIBPC  no  tiene  ningun  efecto  sobre  Ml,  obtenemos  el  valor  F  de 


60  449.5 
4  890.7822 


12.3598 


(8.4.15) 


el  cual  sigue  la  distribucion  F  con  1  y  62  gl.  Este  valor  F  resulta  muy  significativo,  pues  el  valor 
p  calculado  es  de  0.0008.  Por  tanto,  como  antes,  rechazamos  la  hipotesis  de  que  PIBPC  no  tiene 
efecto  alguno  sobre  Ml.  A  proposito,  observe  que  t2  =  (— 3.5156)2  =  12.3594,  lo  cual  es  casi  lo 
mismo  que  el  valor  F  de  (8.4. 15),  donde  el  valor  t  se  obtiene  de  (8.4. 14).  Pero  esto  no  debe  sor- 
prender,  porque  el  cuadrado  del  estadistico  t  con  n  gl  es  igual  al  valor  F  con  1  gl  en  el  numerador 
y  n  gl  en  el  denominador,  relacion  que  se  establecio  en  el  capitulo  5.  Note  que  en  este  ejemplo 
n  =  64. 

Una  vez  efectuada  la  regresion  (8.4.14),  supongamos  que  decidimos  agregar  A)  al  modelo  y 
obtener  la  regresion  multiple  (8.1.4).  Las  preguntas  son: 

1 .  ,;Cual  es  la  contribucion  marginal  o  incremental  de  TAM  si  sabemos  que  PIBPC  ya  aparece  en 
el  modelo  y  esta  relacionada  significativamente  con  Ml? 

2.  ,\Es  la  contribucion  incremental  de  TAM  estadisticamente  significativa? 

3.  (.Cual  es  el  criterio  para  agregar  variables  al  modelo? 

Estas  preguntas  se  resuelven  mediante  la  tecnica  ANOVA.  Para  ver  esto  elaboramos  la  tabla  8.6. 
En  esta  tabla,  X 2  se  refiere  al  PIBPC  y  X3  a  la  TAM. 

Para  evaluar  la  contribucion  incremental  de  A3  despues  de  considerar  la  contribucion  de  A, 
calculamos 


Oil gl 

04/gl 


(SCEnueva  —  SCEvieja)/numero  de  regresoras  nuevas 
SCRnueva/gl  (  —  n  —  numero  de  parametros  en  el  nuevo  modelo) 


02/1 

04/61 


para  este  ejemplo 


(8.4.16) 
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TAB  LA  8.6 

Tabla  ANOVA  para  eva- 
luar  la  contribution  in¬ 
cremental  de  una  o  mas 
variables 


Origen  de  la  variacion 

SC 

gi 

SCM 

SCE  debido  solo  a  X2 

Qi  = 

= ft  2X4 

1 

Qi 

1 

SCE  debido  a  la  adicion  de  X3 

Qi~- 

=  Qa  -  Qi 

i 

Q2 

1 

SCE  debido  tanto  a  X2  como  a  X3 

Qs  = 

=  d2  E  YiXn  +dsE  YiXv 

2 

Qs 

2 

SCR 

q4  = 

=  Qs  -  Qs 

n  —  3 

Q4 

Total 

Qs  = 

~-Eyf 

n  —  1 

n  -  3 

donde  SCEnueva  =  SCE  segun  el  modelo  nuevo  (es  decir,  despues  de  agregar  las  regresoras  nue- 
vas  =  (>s),  SCEvieja  =  SCE  segun  el  modelo  antiguo  (  =  Q\)  y  SCRnueva  =  SCR  segun  el  nuevo 
(es  decir,  despues  de  considerar  todas  las  regresoras  =  Q4).  Para  este  ejemplo  ilustrativo,  los 
resultados  se  presentan  en  la  tabla  8.7. 

Ahora,  al  aplicar  la  ecuacion  (8.4.16),  obtenemos 


196  912.9 
1  742.8786 


112.9814 


(8.4.17) 


Segun  los  supuestos  usuales,  este  valor  F  sigue  la  distribucion  F  con  1  y  62  gl.  El  lector  verificara 
que  este  valor  F  es  muy  significativo,  lo  cual  sugiere  que  la  incorporacion  de  TAM  al  modelo  au- 
menta  en  gran  medida  la  SCE  y,  por  tanto,  el  valor  R1.  En  consecuencia,  TAM  debe  incorporate 
al  modelo.  Una  vez  mas,  observe  que  si  elevamos  al  cuadrado  el  valor  del  coeficiente  de  TAM  en 
la  regresion  multiple  (8.1 .4),  que  es  (— 10.6293)2,  obtendremos  el  valor  F  de  (8.4. 1 7),  salvo  por 
errores  de  redondeo. 

A  proposito,  la  razon  F  de  (8.4.16)  se  reformula  solo  en  terminos  de  los  valores  R2,  como 
en  (8.4.13).  Como  lo  indica  el  ejercicio  8.2,  la  razon  F  de  (8.4.16)  es  equivalente  a  la  siguiente 
razon  F:9 


(^nueva-^eja)/^ 

(1  -  *2nueva)/gl 

(-^nueva —  -^vieja)  / numero  de  regresoras  nuevas 
( 1  —  Rnueva)  /gl  {  — n  —  numero  de  parametros  en  el  nuevo  modelo) 

(8.4.18) 


TABLA  8.7 

Tabla  ANOVA  para  el 
ejemplo  ilustrativo: 
analisis  incremental 


Origen  de  la  variacion 

SC 

gi 

SCM 

SCE  debido  a  PIBPC 

60  449.5 

1 

60  449.5 

SCE  debido  a  la  adicion  de  TAM 

196  912.9 

1 

196  912.9 

ESCE  debido  tanto  a  PIBPC  como  a  TAM 

257  362.4 

2 

128  681.2 

SCR 

106  315.6 

63 

1  742.8786 

Total 

363  678 

63 

9  La  siguiente  prueba  F  es  un  caso  especial  de  la  prueba  F  mas  general  dada  en  (8.6.9)  u  (8.6.1 0),  en  la  sec- 
cion  8.6. 
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Esta  razon  F  tambien  sigue  la  distribucion  F  con  los  gl  apropiados  en  el  numerador  y  el  denomi- 
nador,  1  y  61,  respectivamente,  en  el  ejemplo  ilustrativo. 

Para  nuestro  ejemplo,  R2nuem  =  0.7077  [de  (8.1.4)]  y  7?;ieja  =  0.1662  [de  (8.4.14)].  Por  consi- 
guiente, 


(0.7077  -  0.1662)/1 
(1  -  0.7077) /61 


113.05 


(8.4.19) 


lo  cual  es  casi  lo  mismo  que  el  valor  F  de  (8.4.17),  excepto  por  errores  de  redondeo.  Esta  F  es 
muy  significativa,  pues  refuerza  el  descubrimiento  anterior  de  que  la  variable  TAM  pertenece  al 
modelo. 

Advertencia:  Si  utiliza  la  version  R2  de  la  prueba  F  dada  en  (8.4.1 1),  asegurese  de  que  la  va¬ 
riable  dependiente  en  el  modelo  reciente  y  en  el  anterior  sea  la  misma.  Si  son  diferentes  utilice 
la  prueba  E’de  (8.4.16). 


Cuando  agregar  una  nueva  variable 

El  procedimiento  de  prueba  F  recien  presentado  constituye  un  metodo  formal  para  decidir  si  una 
variable  debe  adicionarse  a  un  modelo  de  regresion.  A  menudo,  los  investigadores  se  enfrentan  a 
la  labor  de  escoger  entre  diversos  modelos  en  competencia,  que  consideran  la  misma  variable 
dependiente  pero  diferentes  variables  explicativas.  Como  un  asunto  de  election  ad  hoc  (debido 
a  que  muchas  veces  la  base  teorica  del  analisis  es  debil),  estos  investigadores  seleccionan  el 
modelo  que  presenta  la  R2  ajustada  mas  elevada.  Por  consiguiente,  si  la  inclusion  de  una  variable 
incrementa  R2,  esta  se  conserva  en  el  modelo  aunque  no  reduzca  significativamente  la  SCR  en 
sentido  estadistico.  La  pregunta  entonces  es:  ^cuando  aumenta  R2  ajustada?  Puede  demostrarse 
que  R2  aumenta  si  el  valor  t  del  coeficiente  de  la  variable  recien  agregada  es  mayor  que  1  en 
valor  absoluto,  donde  el  valor  t  se  calcula  segun  la  hipotesis  de  que  el  valor  poblacional  del  men- 
cionado  coeficiente  es  cero  [es  decir,  el  valor  t  calculado  a  partir  de  (5.3.2)  conforme  a  la  hipo¬ 
tesis  de  que  el  verdadero  P  es  cero].10  El  criterio  anterior  tambien  se  plantea  en  forma  diferente: 
R2  aumenta  con  la  adicion  de  una  variable  explicativa  solo  si  el  valor  F(=  t 2)  de  esa  variable 
es  superior  a  1. 

Con  cualquier  criterio,  la  variable  TAM  con  un  valor  t  de  —10.6293  o  un  valor  F  dc  112.9814 
debe  aumentar  R2,  lo  cual  sin  duda  sucede:  cuando  se  agrega  TAM  al  modelo,  R2  se  incremen¬ 
ta  de  0.1528  a  0.6981. 


Cuando  agregar  un  grupo  de  variables 

(',Sc  puede  elaborar  una  regia  similar  para  decidir  si  se  justifica  agregar  (o  quitar)  un  grupo  de 
variables  del  modelo?  La  respuesta  debe  ser  clara  a  partir  de  (8.4.18):  si  la  adicion  (o  elimina- 
cion)  de  un  grupo  de  variables  al  modelo  genera  un  valor  F  mayor  (menor)  que  1,  R2  aumenta 
(disminuye).  Por  supuesto,  de  (8.4.18)  se  deriva  facilmente  si  la  adicion  ( diminution)  de  un 
grupo  de  variables  incrementa  (reduce)  de  modo  significativo  el  poder  explicativo  de  un  modelo 
de  regresion. 


8.5  Prueba  de  igualdad  de  dos  coeficientes  de  regresion 

Suponga  que  en  la  regresion  multiple 

Yj  —  b  i  +  bnXii  +  PiXy  +  PaX^  +  u,  (8.5.1) 


10  Para  una  demostracion,  vease  Dennis  J.  Aigner,  Basic  Econometrics,  Prentice-Hall,  Englewood  Cliffs,  Nueva 
Jersey,  1971,  pp.  91-92. 
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deseamos  probar  la  hipotesis 

Ho'-  Pi  —  Pa  o  (Pi  -  Pa)  —  0 

(8.5.2) 

Hu  Pi  +  Pa  o  (pn  -  Pa)  ±  0 

es  decir,  los  dos  coeficientes  de  pendiente  Pi  y  Pa  son  iguales. 

Una  hipotesis  nula  de  este  tipo  tiene  importancia  practica;  por  ejemplo,  si  (8.5.1)  representa 
la  funcion  de  demanda  de  un  bien  donde  Y  —  cantidad  demandada  del  bien,  X2  =  precio  del  bien, 
Xi  =  ingreso  del  consumidor  y  X4  —  riqueza  del  consumidor.  La  hipotesis  nula  en  este  caso  sig- 
nifica  que  los  coeficientes  de  ingreso  y  riqueza  son  los  mismos.  Si  Y,  y  las  X  estan  expresadas  en 
forma  logaritmica,  la  hipotesis  nula  en  (8.5.2)  implica  que  las  elasticidades  ingreso  y  riqueza  del 
consumo  son  iguales.  ((',Por  que?) 

^Como  probamos  una  hipotesis  nula  como  esta?  Con  los  supuestos  clasicos  se  demuestra 
que 


t  =  ~  ^  ~  M  (8.5.5) 

ee  (Pi  -  Pa) 

sigue  la  distribucion  t  con  (n  —  4)  gl  porque  (8.5.1)  es  un  modelo  con  cuatro  variables  o,  mas 
generalmente,  con  (n  —  k )  gl,  donde  k  es  el  numero  total  de  parametros  estimados,  inclusive  el 
termino  constante.  El  ee  (Pi  —  Pa)  se  obtiene  de  la  siguiente  formula  conocida  (vease  detalles  en 
el  apendice  A): 


se(Pi  -  Pa)  =  yjw^v(Pi)  +  var(yS4)  -2  cow  (pi,  Pa)  (8.5.4) 

'4  en  (8.5.3),  el  estadistico  de 


Si  sustituimos  la  hipotesis  nula  y  la  expresion  para  el  ee  Pi 
prueba  se  convierte  en 


t  — 


Pi  -  Pa 


WM(Pi)  +  wav  (Pa) -2  cow  (Pi,  P4) 


(8.5.5) 


Ahora  el  procedimiento  de  prueba  comprende  los  siguientes  pasos: 

1.  Estime  Pi  y  Pa-  Cualquier  software  estandar  puede  hacerlo. 

2.  La  mayoria  de  los  programas  de  computacion  calcula  las  varianzas  y  covarianzas  de  los  para¬ 
metros  estimados.11  De  estas  estimaciones,  el  error  estandar  en  el  denominador  de  (8.5.5)  se 
obtiene  facilmente. 

3.  Obtenga  la  razon  t  de  (8.5.5).  Observe  que  la  hipotesis  nula  en  el  caso  presente  es 
(Pi  -  Pa)  =  0. 

4.  Si  la  variable  t  calculada  de  (8.5.5)  excede  el  valor  t  critico  en  el  nivel  de  significance  desig- 
nado  para  los  gl  dados,  puede  rechazar  la  hipotesis  nula;  de  lo  contrario,  no  la  rechace.  En 
forma  alterna,  si  el  valor p  del  estadistico  /  de  (8.5.5)  es  razonablemente  bajo,  puede  rechazar 
la  hipotesis  nula.  Observe  que  mientras  mas  bajo  sea  el  valor  p,  mayor  sera  la  evidencia  en 
contra  de  la  hipotesis  nula.  Por  tanto,  cuando  se  dice  que  un  valor p  es  bajo  o  razonablemente 
bajo,  se  quiere  decir  que  es  menor  que  el  nivel  de  significance,  por  ejemplo,  10,  5  o  1%.  En 
esta  decision  esta  implicito  cierto  criterio  personal. 


11  La  expresion  algebraica  para  la  formula  de  la  covarianza  es  un  poco  compleja.  En  el  apendice  C  se  ofrece 
una  expresion  compacta  de  ella,  aunque  con  notacion  matricial. 
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EJEMPLO  8.2  Recuerde  la  funcion  cubica  del  costo  total  estimada  en  el  ejemplo  7.4,  seccion  7.10,  que  se 

De  nuevo,  la  funcion  reproduce  en  seguida: 

cubica  de  costo  Y,  =  1 41 .7667  +  63.4777X,  -  1 2.961 5 X2  +  0.9396X,3 

ee  =  (6.3753)  (4.7786)  (0.9857)  (0.0591)  (7.10.6) 

coy  (fa,  fa)  =  -0.0576;  R2  =0.9983 

donde  Y  es  el  costo  total  y  X  es  la  produccion,  y  donde  las  cifras  en  parentesis  son  los  errores 
estandar  estimados. 

Suponga  que  deseamos  probar  la  hipotesis  de  que  los  coeficientes  de  los  terminos  X2  y  X3 
en  la  funcion  cubica  de  costo  son  los  mismos,  es  decir,  =  fa  o  (/I3  —  fa)  =  0.  En  la  regresion 
(7.1 0.6)  aparecen  todos  los  resultados  necesarios  para  realizar  la  prueba  f  a  partir  de  (8.5.5).  La 
mecanica  es  la  siguiente: 


f  = 


fa  -  fa 


var  (fa)  +  var(fa)-2  cov  (fa,  fa) 
-12.9615-  0.9396 
7(0.9867)2  +  (0.0591  )2  -  2(-0.0576) 
-13.9011 


1 .0442 


=  -13.3130 


(8.5.6) 


El  lector  puede  verificar  que,  para  6  gl  (ipor  que?),  el  valor  t  observado  excede  el  valor  t  crftico 
aun  en  el  nivel  de  significancia  de  0.002  (o  0.2%)  (prueba  de  dos  colas);  el  valor  p  es  extrema- 
damente  pequeno,  0.000006.  Por  tanto,  podemos  rechazar  la  hipotesis  de  que  los  coeficientes 
de  X2y  X3  en  la  funcion  cubica  de  costo  son  identicos. 


8.6  Mmimos  cuadrados  restringidos:  pruebas  de  restricciones 
de  igualdades  lineales 


Hay  ocasiones  en  las  cuales  la  teoria  economica  puede  sugerir  que  los  coeficientes  en  un  modelo 
de  regresion  satisfacen  algunas  restricciones  de  igualdades  lineales.  Por  ejemplo,  considere  la 
funcion  de  produccion  Cobb-Douglas: 

Y,  =  faX%X%eu‘  (7.9.1)  =  (8.6.1) 

donde  Y  =  produccion,  X2  —  insumo  trabajo  y  X3  —  insumo  capital.  Escrita  en  forma  de  loga- 
ritmo,  la  ecuacion  se  convierte  en 

In  Y{  —  fa  +  fa  In  X2j  +  fa  lnX"3/  +  u,  (8.6.2) 

donde  fa  =  In  fa. 

Ahora,  si  existen  rendimientos  constantes  a  escala  (un  cambio  equiproporcional  en  la  produc¬ 
cion  ante  un  cambio  equiproporcional  en  los  insumos),  la  teoria  economica  sugeriria  que 

fa  +  fa  =  1  (8.6.3) 

el  cual  es  un  ejemplo  de  una  restriccion  de  igualdad  lineal.12 

;,C6mo  saber  si  hay  rendimientos  constantes  a  escala,  es  decir,  si  es  valida  la  restriccion 
(8.6.3)?  Existen  dos  metodos. 


12  Si  tuvieramos  fa  +  fa  <  1,  esta  relacion  serfa  un  ejemplo  de  restriccion  de  desigualdad  lineal.  Para  el  ma- 
nejo  de  tales  restricciones  se  requieren  tecnicas  de  programacion  matematica. 


Capftulo  8  Analisis  de  regresion  multiple:  el problema  de  la  inferencia  249 


El  enfoque  de  la  prueba  t 

El  procedimiento  mas  simple  es  estimar  (8.6.2)  de  la  forma  usual  sin  tener  en  cuenta  la  restric¬ 
cion  (8.6.3)  explicitamente.  Esto  se  denomina  regresion  no  restringida  o  no  limitada.  Tras 
estimar  ft  y  ft  (por  ejemplo,  mediante  el  metodo  de  MCO)  se  realiza  una  prueba  de  la  hipotesis 
o  restriccion  (8.6.3)  mediante  la  prueba  t  de  (8.5.3),  a  saber: 


(ft  +  ft)  -  (ft  +  ft) 

ee  (ft  +  ft) 

02  +  ft)  ~  1 

yvar(ft)  +  var(ft)  +  2cov(ft,  ft) 


(8.6.4) 


donde  (ft  +  ft)  =  1  segun  la  hipotesis  nula  y  el  denominador  es  el  error  estandar  de  (ft  +  ft). 
Entonces,  segun  la  seccion  8.5,  si  el  valor  t  calculado  a  partir  de  (8.6.4)  excede  el  valor  t  critico 
en  el  nivel  de  significancia  seleccionado,  rechazamos  la  hipotesis  de  rendimientos  constantes  a 
escala;  de  lo  contrario,  no  la  rechazamos. 


Enfoque  de  la  prueba  F:  rmnimos  cuadrados  restringidos 

La  prueba  t  anterior  es  una  clase  de  examen post  mortem,  pues  se  trata  de  encontrar  si  se  satisface 
la  restriccion  lineal  despues  de  estimar  la  regresion  “no  restringida”.  Un  metodo  directo  seria 
incorporar  la  restriccion  (8.6.3)  en  el  procedimiento  de  estimacion  desde  el  comienzo.  En  el 
ejemplo  presente,  este  procedimiento  se  realiza  facilmente.  De  (8.6.3)  vemos  que: 


ft  =  1  -  ft 

(8.6.5) 

ft  =  1  —  ft 

(8.6.6) 

Por  consiguiente,  con  cualquiera  de  estas  igualdades  podemos  eliminar  un  coeficiente  P  en  (8.6.2) 
y  estimar  la  ecuacion  resultante.  Asi,  si  utilizamos  (8.6.5)  escribimos  la  funcion  de  production 
Cobb-Douglas  de  la  siguiente  manera: 

In  Yi  —  ft  +  ( 1  —  ft )  In  X2,  +  ft  In  Xy  +  Ui 
—  ft  +  hi  X2;  +  ft(ln  A3,  —  \nX2i)  +  Ui 


o 


(In  Yt  -  In  X2i)  =  ft  +  ft  (In  X3i  -  In  X2i)  +  ut  (8.6.7) 

o 

In (Yi/Xv)  =  ft  +  ft  ln(X3!/X2;)  +  u,  (8.6.8) 

donde  (I)/X2|)  =  razon  produccion/trabajo  y  ( Xy/X2i )  =  razon  capital/trabajo,  indicadores  de 
gran  importancia  economica. 

Observe  como  se  transforma  la  ecuacion  original  (8.6.2).  Una  vez  que  se  estima  ft  de  (8.6.7) 
u  (8.6.8),  ft  se  estima  con  facilidad  a  partir  de  la  relacion  (8.6.5).  Sobra  decir  que  este  proce¬ 
dimiento  garantiza  que  la  suma  de  los  coeficientes  estimados  de  los  dos  insumos  iguale  a  1 .  El 
procedimiento  esquematizado  en  (8.6.7)  o  en  (8.6.8)  se  conoce  como  minimos  cuadrados  res¬ 
tringidos  (MCR).  Este  procedimiento  puede  generalizarse  a  modelos  con  cualquier  numero  de 
variables  explicativas  y  mas  de  una  restriccion  de  igualdad  lineal.  La  generalizacion  se  encuentra 
en  Theil.13  (Vease  en  seguida  la  prueba  F  general.) 


13  Henri  Theil,  Principles  of  Econometrics,  John  Wiley  &  Sons,  Nueva  York,  1 971,  pp.  43-45. 
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^Como  comparamos  las  regresiones  de  mlnimos  cuadrados  no  restringidas  y  las  restringidas? 
En  otras  palabras,  ^como  saber  que,  por  ejemplo,  la  restriccion  (8.6.3)  es  valida?  Esta  pregunta 
se  verifica  al  aplicar  la  prueba  F  de  la  siguiente  manera.  Sea 

J2  “nr  =  SCR  de  la  regresion  no  restringida  (8.6.2) 

J2  “r  =  SCR  de  la  regresion  restringida  (8.6.7) 

m  —  niimero  de  restricciones  lineales  (1  en  el  presente  ejemplo) 
k  —  numero  de  parametros  en  la  regresion  no  restringida 
n  —  numero  de  observaciones 

Entonces, 


(SCRr  -  SCRNr)/tw 
SCRnr)(  n  —  k) 

(E“ R~  E“NR)/m 

E4r/(«  -  k) 


sigue  la  distribucion  F  con  m,  ( n  —  k)  gl.  ( Nota :  Las  letras  NR  y  R  representan  “no  restringida” 
y  “restringida”,  respectivamente.) 

La  anterior  prueba  F  tambien  se  expresa  en  terminos  de  R2  de  la  siguiente  manera: 


(4r~4)A» 

O-^nr)/^-*) 


(8.6.10) 


donde  4r  y  4  son  los  valores  R1  obtenidos  de  las  regresiones  no  restringida  y  restringida  res¬ 
pectivamente,  es  decir,  de  las  regresiones  (8.6.2)  y  (8.6.7).  Debe  observarse  que 

4 r>4  (8.6.11) 

y 

E“NR<Er,i  (8-6-12) 

En  el  ejercicio  8.4  se  le  pide  justificar  estas  afirmaciones. 

Advertencia:  Al  utilizar  (8.6.10)  tenga  en  mente  que  si  la  variable  dependiente  en  los  mode¬ 
los  restringido  y  no  restringido  no  es  la  misma,  4 R  y  4  110  son  directamente  comparables.  En 
ese  caso,  utilice  el  procedimiento  descrito  en  el  capltulo  7  para  hacer  comparables  los  dos  valores 
de  R2  (vease  el  ejemplo  8.3  en  seguida),  o  utilice  la  prueba  F  de  la  ecuacion  (8.6.9). 


EJEMPLO  8.3 

Funcion  de  produc¬ 
tion  Cobb-Douglas 
para  la  economla 
mexicana,  1955- 
1974 


A  fin  de  ilustrar  el  analisis  anterior,  considere  los  datos  de  la  tabla  8.8.  El  ajuste  de  la  funcion  de 
produccion  Cobb-Douglas  a  esos  datos  produjo  los  siguientes  resultados: 

In  PIB f  =  —1.6524  +  0.3397  In  Trabajot  +  0.8460  In  Capital  (8.6.13) 

t=  (-2.7259)  (1.8295)  (9.0625) 

valor  p=  (0.0144)  (0.0849)  (0.0000) 

R2  =  0.9951  SCRnr=  0.01  36 


donde  SCRnr  es  la  SCR  no  restringida,  pues  no  se  pusieron  restricciones  al  estimar  (8.6.1  3). 
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TARI  A  8  8 

PIB  real,  empleo  y 

Ano 

PIB* 

Empleo1 

Capital  fijoT 

capital  fijo  real  en 

1955 

114  043 

8  310 

182  113 

Mexico 

1956 

120  410 

8  529 

193  749 

1957 

129 187 

8  738 

205  1 92 

Fuente:  Victor  J.  Elias,  Sources 

1958 

1  34  705 

8  952 

215 130 

of  Growth:  A  Study  of  Seven 

1959 

1  39  960 

9  171 

225  021 

International  Center  for  Eco- 

1960 

150  511 

9  569 

237  026 

nomic  Growth,  ICS  Press,  San 

1961 

157  897 

9  527 

248  897 

Francisco,  1992.  Datos  tornados 

1962 

165  286 

9  662 

260  661 

de  las  tablas  E5,  E12  y  E14. 

1963 

178  491 

10  334 

275  466 

1964 

199  457 

10  981 

295  378 

1965 

212  323 

11  746 

315  715 

1966 

226  977 

11  521 

337  642 

1967 

241  194 

11  540 

363  599 

1968 

260  881 

12  066 

391  847 

1969 

277  498 

12  297 

422  382 

1970 

296  530 

12  955 

455  049 

1971 

306  712 

13  338 

484  677 

1972 

329  030 

13  738 

520  553 

1973 

354  057 

15  924 

561  531 

1974 

374  977 

14  154 

609  825 

*Millones  de  pesos  de  1960. 
t  Miles  de  personas, 
t  Millones  de  pesos  de  1960. 


Ya  vimos  en  el  capftulo  7  como  interpretar  los  coeficientes  de  la  funcion  de  produccion  Cobb- 
Douglas.  Como  se  aprecia,  la  elasticidad  produccion/trabajo  es  de  casi  0.34  y  la  elasticidad 
produccion/capital  vale  casi  0.85.  Si  sumamos  estos  coeficientes  se  obtiene  1 .1 9,  lo  que  sugiere 
que  quiza  la  economfa  mexicana  experimento  durante  ese  periodo  establecido  rendimientos 
crecientes  a  escala.  Por  supuesto,  desconocemos  si  1 .1 9  es  estadfsticamente  diferente  de  1 . 

Para  ver  si  es  el  caso,  se  impone  una  restriccion  de  rendimientos  constantes  a  escala,  lo  cual 
da  la  siguiente  regresion: 


In  (PIB/Trabajo)t=  -0.4947 
t=  (-4.061 2) 
valor  p  =  (0.0007) 


1.0153  In  (Capital/Trabajo)t 
(28.1056) 

(0.0000) 

rI=  0.9777  SCRr  =  0.01  66 


(8.6.14) 


donde  SCRr  es  la  SCR  restringida,  pues  impusimos  la  restriccion  de  que  haya  rendimientos 
constantes  a  escala. 


( continue i) 
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EJEMPLO  8.3 

(i continuation ) 


Como  la  variable  dependiente  en  las  dos  regresiones  anteriores  es  diferente,  tenemos  que 
utilizar  la  prueba  Fdada  en  (8.6.9).  Se  cuenta  con  los  datos  necesarios  para  obtener  el  valor  F. 

F  _  (SCRr  —  SCRnrVui 
SCR  m/(n-k) 

_  (0.01 66-  0.01  36)/1 

“  (0.01  36)/(20  —  3) 

=  3.75 

Observe  que  en  el  presente  caso  m  =  1,  pues  solo  se  impuso  una  restriccion  y  (n  —  k)  es  1  7,  en 
vista  de  que  se  tienen  20  observaciones  y  tres  parametros  en  la  regresion  no  restringida. 

Este  valor  F  sigue  una  distribucion  F  con  1  gl  en  el  numerador  y  1  7  en  el  denominador.  El 
lector  puede  verificar  con  facilidad  que  esta  Fno  es  significativa,  en  un  nivel  de  significancia  de 
5%.  (Vease  el  apendice  D,  tabla  D.3.) 

Asl,  la  conclusion  es  que  la  economia  mexicana  quiza  se  caracterizo  por  rendimientos  cons- 
tantes  a  escala  en  el  periodo  de  muestra  y,  por  tanto,  no  hay  dano  alguno  al  utilizar  la  regresion 
restringida  dada  en  (8.6.14).  Como  muestra  esta  regresion,  si  la  razon  capital/trabajo  se  incre- 
mento  1%,  en  promedio,  la  productividad  del  trabajo  aumento  casi  1%. 


Prueba  F  general14 

La  prueba  F  dada  en  (8.6.10)  o  su  equivalente  en  (8.6.9)  proporciona  un  metodo  general  de 
prueba  de  hipotesis  sobre  uno  o  mas  parametros  del  modelo  de  regresion  con  k  variables: 

Yi=px  +  P2X2 1  +  +  ■  ■  •  +  PkXki  +  Ui  (8.6.1 5) 

La  prueba  F  de  (8.4.16)  o  la  prueba  t  de  (8.5.3)  no  es  otra  cosa  que  una  aplicacion  especlfica  de 
(8.6.10).  Asi,  hipotesis  como 


H0:p2  =  P  3  (8.6.16) 

H0:  A  +  A  +  ft  =  3  (8.6.17) 

que  consideran  algunas  restricciones  lineales  en  los  parametros  del  modelo  con  k  variables,  o 
hipotesis  como 


H0:  ft  =  fi4  =  p5  =  p6  =  0  (8.6.18) 

que  implica  que  algunas  regresoras  estan  ausentes  del  modelo,  pueden  probarse  mediante  la 
prueba  Fde  (8.6.10). 

Del  analisis  en  las  secciones  8.4  y  8.6,  el  lector  habra  notado  que  la  estrategia  general  de  la 
prueba  F  es  la  siguiente:  hay  un  modelo  mas  grande,  el  modelo  no  restringido  (8.6.15),  y  un 
modelo  mas  pequeno,  el  modelo  restringido  o  limitado,  que  se  obtuvo  del  modelo  mas  grande  al 
eliminar  algunas  de  sus  variables,  por  ejemplo  (8.6.18),  o  al  colocar  algunas  restricciones  lineales 
sobre  uno  o  mas  coeficientes  del  modelo  mas  grande,  por  ejemplo  (8.6.16)  u  (8.6.17). 


14  Si  se  utiliza  el  metodo  de  maxima  verosimilitud  en  la  estimacion,  entonces  hay  una  prueba  semejante  a  la 
que  estudiara  en  seguida,  a  saber,  la  prueba  de  razon  de  verosimilitud,  la  cual  es  un  poco  complicada 
y  por  tanto  se  estudia  en  el  apendice  de  este  capftulo.  Para  un  analisis  mas  a  fondo,  vease  Theil,  op.  at., 
pp.  179-184. 
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Ajustamos  entonces  los  modelos  no  restringido  y  restringido  a  los  datos  y  obtenemos  los 
coeficientes  de  determination  respectivos,  a  saber,  R^r  y  Rr.  Se  observan  los  gl  en  el  modelo  no 
restringido  (=  n  —  k)  y  tambien  los  gl  en  el  modelo  restringido  (=  in),  con  m  como  el  numero 
de  restricciones  lineales  [por  ejemplo  1  en  (8.6.16)  o  en  (8.6.18)]  o  el  numero  de  regresoras 
omitidos  del  modelo  [por  ejemplo  m  =  4  si  se  cumple  (8.6.18),  pues  se  supone  que  hay  cuatro 
regresoras  ausentes  del  modelo].  Asi  podemos  calcular  la  razon  F  como  se  indica  en  (8.6.9)  u 
(8.6.10),  y  utilizar  esta  regia  de  decision:  si  la  F  calculada  excede  Fa(m,  n  —  k),  donde  Fa(m, 
n  —  k)  es  el  F  crltico  en  el  nivel  de  significancia  a,  se  rechaza  la  hipotesis  nula;  de  lo  contrario 
no  se  rechaza. 

Ilustremos  lo  anterior: 


EJEMPLO  8.4 

Demanda  de  came 
de  polio  en  Estados 
Unidos,  1960-1982 


En  el  ejercicio  7.19,  entre  otras  cosas,  se  le  pidio  considerar  la  siguiente  funcion  de  demanda 
de  polios: 

In  Yt  =  +  p2  In  X2t  +  Pi  In  X3f  +  p4  In  X4t  +  Ps  In  Xst  +  u,  (8.6.19) 

donde  Y  =  consumo  de  polio  per  capita,  lbs;  X2  =  ingreso  real  disponible  per  capita,  $;  X3  = 
precio  real  al  menudeo  del  polio  por  lb,  <t;  X4  =  precio  real  al  menudeo  del  cerdo  por  lb,  c  y 
X5  =  precio  real  de  la  carne  de  res  por  lb,  <t. 

En  este  modelo  p2,  Pi,  p4  y  Ps  son  las  elasticidades  ingreso,  precio-propio,  precio-cruzado 
(cerdo)  y  precio-cruzado  (carne  de  res).  (£Por  que?)  De  acuerdo  con  la  teoria  economica. 


P  2  >  0 

Pi<  0 

p4  >  0,  si  el  polio  y  el  cerdo  son  productos  que  compiten 

<  0,  si  el  polio  y  el  cerdo  son  productos  complementarios 

=  0,  si  el  polio  y  el  cerdo  son  productos  no  relacionados 

Ps  >  0,  si  el  polio  y  la  carne  de  res  son  productos  que  compiten 

<  0,  si  el  polio  y  el  cerdo  son  productos  complementarios 

=  0,  si  el  polio  y  el  cerdo  son  productos  no  relacionados 


(8.6.20) 


Suponga  que  alguien  afirma  que  el  polio,  el  cerdo  y  la  carne  de  res  son  productos  no  rela¬ 
cionados  en  el  sentido  de  que  al  consumo  de  polio  no  le  afectan  los  precios  del  cerdo  ni  de  la 
carne  de  res.  En  resumen, 


H0:  p4  =  Ps  =  0  (8.6.21) 

Por  consiguiente,  la  regresion  restringida  se  transforma  en 

In  Yt  =  Pi  +  p2  In  X2t  +  Pi  In  X3f  -|-  Uf  (8.6.22) 

La  ecuacion  (8.6.19)  es,  a  todas  luces,  la  regresion  no  restringida. 

Con  la  informacion  del  ejercicio  7.19  obtenemos  lo  siguiente: 

Regresion  no  restringida 

InVf  =  2.1898  +  0.3425  In  X2f  -  0.5046  In  X3(  +  0.1485  In  X4t+  0.0911  In  X5t 
(0.1557)  (0.0833)  (0.1109)  (0.0997)  (0.1007) 

Rnr  0.9823  (8.6.23) 

Regresion  restringida 

InVt  =  2.0328  +  0.4515  In  X2t-  0.3772  In  X3t 

(0.1162)  (0.0247)  (0.0635)  (8.6.24) 

Rr  =  0.9801 


( continua ) 
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EJEMPLO  8.4 

( continuation ) 


donde  las  cifras  en  parentesis  son  los  errores  estandar  estimados.  Nota:  Los  valores  de  R2  de 
(8. 6. 23)  y  (8.6.24)  son  comparables,  pues  la  variable  dependiente  en  los  dos  modelos  es  la 
misma. 

Ahora  la  razon  Fpara  probar  la  hipotesis  (8.6.21)  es 


(^NR  Rj)/m 

(1  -R2R)/(n-k) 


(8.6.10) 


En  este  caso,  el  valor  de  m  es  2,  pues  hay  dos  restricciones:  fa  =  0  y  fa  =  0.  Los  gl  del  denomi- 
nador  (n  —  k)  son  1 8,  porque  n  =  23  y  k  =  5  (5  coeficientes  fa. 

Por  consiguiente,  la  razon  Fes 


_  (0.9823-  0.9801  )/2 
=  (1  -  0.9823)/1 8 

=  1.1224 


(8.6.25) 


que  tiene  una  distribucion  F  con  2  y  1 8  gl. 

En  el  nivel  de  5%  se  aprecia  con  claridad  que  este  valor  F  no  es  estadfsticamente  significa¬ 
tive  [Fo.o5(2,18)  =  3.55].  El  valor  p  es  0.3472.  Por  consiguiente,  no  hay  razon  para  rechazar  la 
hipotesis  nula:  la  demanda  de  polio  no  depende  de  los  precios  del  cerdo  ni  de  la  came  de  res. 
En  resumen,  aceptamos  la  regresion  restringida  (8.6.24)  como  la  que  representa  la  funcion  de 
demanda  de  polio. 

Observe  que  la  funcion  de  demanda  satisface  las  expectativas  economicas  a  priori,  pues  la 
elasticidad  precio-propio  es  negativa  y  la  elasticidad  ingreso  es  positiva.  Sin  embargo,  la  elastici- 
dad  precio  estimada,  en  valor  absoluto,  es  estadfsticamente  menor  que  la  unidad,  lo  que  implica 
que  la  demanda  de  polio  es  inelastica  al  precio.  (<;Por  que?)  Ademas,  la  elasticidad  ingreso,  si 
bien  es  positiva,  estadfsticamente  tambien  es  menor  que  la  unidad,  lo  que  sugiere  que  el  polio 
no  es  un  artfculo  de  lujo;  por  convencion,  se  dice  que  un  artfculo  es  de  lujo  si  su  elasticidad 
ingreso  es  mayor  que  uno. 


8.7  Prueba  para  la  estabilidad  estructural  o  parametrica 
de  los  modelos  de  regresion:  la  prueba  de  Chow 


Cuando  utilizamos  un  modelo  de  regresion  que  implica  series  de  tiempo,  tal  vez  se  de  un  cam- 
bio  estructural  en  la  relacion  entre  la  regresada  Y  y  las  regresoras.  Por  cambio  estructural  nos 
referimos  a  que  los  valores  de  los  parametros  del  modelo  no  permanecen  constantes  a  lo  largo 
de  todo  el  periodo.  A  veces  el  cambio  estructural  se  debe  a  fuerzas  externas  (por  ejemplo,  el  em¬ 
bargo  petrolero  impuesto  por  la  OPEP  en  1973  y  1979,  o  la  Guerra  del  Golfo  de  1990-1991),  o 
a  cambios  en  las  politicas  (como  la  transformacion  de  un  sistema  de  tasa  de  cambio  fija  por  otro 
sistema  flexible,  alrededor  de  1973)  o  por  acciones  tomadas  por  el  Congreso  estadounidense  (por 
ejemplo,  los  cambios  impositivos  iniciados  por  el  presidente  Reagan  durante  sus  dos  periodos  de 
gobierno,  o  por  los  cambios  en  los  salarios  minimos),  u  otras  causas  diversas. 

(;C6mo  saber  que  de  verdad  ocurrio  un  cambio  estructural?  Para  ser  especificos,  considere 
los  datos  de  la  tabla  8.9  sobre  el  ingreso  personal  disponible  y  el  ahorro  personales,  en  miles  de 
millones  de  dolares,  para  Estados  Unidos  de  1970  a  1995.  Suponga  que  deseamos  estimar  una 
sencilla  funcion  ahorro  que  relacione  el  ahorro  (7)  con  el  ingreso  personal  disponible  IPD  (X). 
Como  tenemos  los  datos  se  puede  calcular  una  regresion  por  MCO  de  Y  sobre  X.  Pero,  al  hacerlo, 
afirmamos  que  la  relacion  entre  ahorros  e  IPD  no  cambio  mucho  durante  el  lapso  de  26  anos.  Este 
tal  vez  sea  un  supuesto  dificil  de  creer.  Por  ejemplo,  se  sabe  muy  bien  que  en  1982  Estados  Uni¬ 
dos  experimento  su  peor  recesion  en  tiempos  de  paz.  La  tasa  de  desempleo  civil  alcanzo  9.7%, 
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TAB  LA  8.9 

Ahorro  e  ingreso  perso¬ 
nal  disponible  (en  miles 
de  millones  de  dolares) 
para  Estados  Unidos, 
1970-1995 

Fuente:  Economic  Report  of  the 
President,  1997,  tabla  B-28, 
p.  332. 


Observacion 

Ahorro 

Ingreso 

Observacion 

Ahorro 

Ingreso 

1970 

61.0 

727.1 

1983 

167.0 

2  522.4 

1971 

68.6 

790.2 

1984 

235.7 

2  810.0 

1972 

63.6 

855.3 

1985 

206.2 

3  002.0 

1973 

89.6 

965.0 

1986 

196.5 

3  187.6 

1974 

97.6 

1  054.2 

1987 

168.4 

3  363.1 

1975 

104.4 

1  159.2 

1988 

189.1 

3  640.8 

1976 

96.4 

1  273.0 

1989 

187.8 

3  894.5 

1977 

92.5 

1  401.4 

1990 

208.7 

4  166.8 

1978 

112.6 

1  580.1 

1991 

246.4 

4  343.7 

1979 

130.1 

1  769.5 

1992 

272.6 

4  613.7 

1980 

161.8 

1  973.3 

1993 

214.4 

4  790.2 

1981 

199.1 

2  200.2 

1994 

189.4 

5  021.7 

1982 

205.5 

2  347.3 

1995 

249.3 

5  320.8 

la  mas  alta  desde  1948.  Un  suceso  como  este  pudo  perturbar  la  relacion  entre  el  ahorro  y  el  1PD. 
Para  ver  si  lo  anterior  sucedio,  dividamos  la  muestra  en  dos  periodos:  1970-1981  y  1982-1995, 
antes  y  despues  de  la  recesion  de  1982. 

Ahora  tenemos  tres  posibles  regresiones: 


Periodo  1970-1981: 

Yt  —  7,  +  7.2  Xt  +  ii\t 

n\  = 

12 

(8.7.1) 

Periodo  1982-1995: 

Yt  =  Y\  +  Y2^t  +  w  it 

n  2 

14 

(8.7.2) 

Periodo  1970-1995: 

Yf  =  o£\  ciiXt  Ut 

a  = 

(«,  +  «2)  =  26 

(8.7.3) 

La  regresion  (8.7.3)  supone  que  no  hay  diferencia  entre  los  dos  periodos,  y  por  tanto  estima  la 
relacion  entre  el  ahorro  y  el  1PD  para  la  totalidad  del  periodo,  que  consiste  en  26  observaciones. 
En  otras  palabras,  esta  regresion  supone  que  el  intercepto,  asi  como  el  coeficiente  de  la  pendiente, 
permanecen  constantes  durante  todo  el  periodo;  es  decir,  no  hay  cambio  estructural.  Si  esta  fuera 
la  situacion,  entonces  a,  =  A,  =  y,  y  «2  =  A2  =  Yi- 

Las  regresiones  (8.7.1)  y  (8.7.2)  suponen  que  las  regresiones  en  ambos  periodos  son  distintas; 
es  decir,  el  intercepto  y  los  coeficientes  de  las  pendientes  son  diferentes,  como  se  indica  mediante 
los  parametros  con  subindice.  En  las  regresiones  anteriores,  las  u  representan  los  terminos  de 
error  y  las  n  el  niimero  de  observaciones. 

Para  los  datos  de  la  tabla  8.9,  las  contrapartes  empiricas  de  las  tres  regresiones  anteriores  son 
las  siguientes: 

%  —  1.0161  +  0.0803  X, 
t=  (0.0873)  (9.6015) 

R 2  =  0.9021  SCR,  =  1  785.032 

Y,  =  153.4947  +  0.0148X, 
t=  (4.6922)  (1.7707) 

R2  =  0.2971  SCR2  =  10  005.22 

Y,  =  62.4226  +  0.0376A,+  --- 
t=  (4.8917)  (8.8937) +  •■  ■  (8.7.3a) 

R2  =  0.7672  SCR3  =  23  248.30  gl  =  24 


(8.7.2a) 


gl  =  12 


(8.7.1a) 


gl  =  10 
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FIGURA  8.3 


1970-1981  1982-1995 


Ingreso  Ingreso 


En  las  regresiones  anteriores,  SCR  denota  la  suma  de  cuadrados  residual,  y  las  cifras  entre  paren- 
tesis  son  los  valores  estimados  t. 

Una  mirada  a  las  regresiones  estimadas  indica  que  la  relation  entre  el  ahorro  y  el  IPD  no  es 
la  misma  en  los  dos  subperiodos.  La  pendiente  en  las  regresiones  anteriores  de  ahorro-ingreso 
representa  la  propension  marginal  a  ahorrar  (PMA);  es  decir,  el  cambio  (medio)  en  el  aho¬ 
rro  como  resultado  del  incremento  de  un  dolar  en  el  ingreso  personal  disponible.  En  el  periodo 
1970-1981  la  PMA  fue  de  casi  0.08,  en  tanto  que  para  el  periodo  1982-1995  fue  de  casi  0.02. 
Resulta  dificil  decir  si  este  cambio  se  debio  a  las  politicas  economicas  del  presidente  Reagan.  Lo 
anterior  indica,  ademas,  que  quiza  no  sea  adecuada  la  regresion  conjunta  (8.7.3u),  es  decir,  la 
que  reune  las  26  observaciones  y  efectua  una  regresion  comun  sin  tener  en  cuenta  las  posibles  di- 
ferencias  en  los  dos  subperiodos.  Por  supuesto,  las  afirmaciones  anteriores  necesitan  justificarse 
por  prueba(s)  estadistica(s)  apropiada(s).  A  proposito,  los  diagramas  de  dispersion  y  las  lineas  de 
regresion  estimadas  se  muestran  en  la  figura  8.3. 

Ahora  bien,  las  posibles  diferencias  — es  decir,  los  cambios  estructurales —  quiza  se  deban  a 
diferencias  en  el  intercepto  o  en  el  coeficiente  de  la  pendiente,  o  a  ambos.  (',C6ino  saberlo?  De  la 
figura  8.3  se  obtiene  una  intuition  grafica.  Pero  resulta  util  contar  con  una  prueba  formal. 

Aqui  es  donde  la  prueba  de  Chow  muestra  su  valia.15  La  prueba  supone  que: 

1.  U\t  ~  N( 0,  er2)  y  z/2,  ~  M0,  a2  ).  Es  decir,  los  terminos  de  error  en  las  regresiones  de  los  sub¬ 
periodos  estan  normalmente  distribuidos  con  la  misma  varianza  (homoscedastica)  a2. 

2.  Los  dos  terminos  de  error  ( u\t  y  «2/)  estan  independientemente  distribuidos. 

Los  mecanismos  de  la  prueba  de  Chow  son  los  siguientes: 

1.  Se  estima  la  regresion  (8.7.3),  que  resulta  apropiada  si  no  hay  inestabilidad  en  los  parame- 
tros,  y  se  obtiene  SCR3  con  gl  =  (nl  +  «2  —  k),  donde  k  es  el  numero  de  parametros  estimado,  2 
en  este  caso.  Para  el  ejemplo,  SCR3  =  23  248.30.  Se  llama  a  SCR3  la  suma  de  cuadrados  resi¬ 
dual  restringida  (SCRr),  pues  se  obtiene  al  imponer  las  restricciones  que  '/,  1  =  yi  y  7.2  =  y2;  es 
decir,  las  regresiones  de  los  subperiodos  no  son  diferentes. 

2.  Estime  (8.7.1)  y  obtenga  su  suma  de  residuos  al  cuadrado,  SCRj,  con  gl  =  (n\  —  k).  En  el 
ejemplo,  SCRi  =  1  785.032  y  gl  =  10. 

3.  Estime  (8.7.2)  y  obtenga  su  suma  de  residuos  al  cuadrado,  SCR2,  con  gl  =  («2  —  k).  En  el 
ejemplo,  SCR2  =  10  005.22  y  gl  =  12. 


15  Gregory  C.  Chow,  "Tests  of  Equality  Between  Sets  of  Coefficients  in  Two  Linear  Regressions",  Econome- 
trica,  vol.  28,  num.  3,  1960,  pp.  591-605. 
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4.  Como  los  dos  conjuntos  de  muestras  se  consideran  independientes,  se  pueden  sumar 
SCRi  y  SCR2  para  obtener  lo  que  se  puede  llamar  suma  de  cuadrados  residual  no  restringida 
(SCRnr),  es  decir: 


SCRnr  =  SCRi  +  SCR2  con  gl  =  (m  +  n2  —  2k ) 
En  el  caso  presente, 


SCRnr  =  (1  785.032  +  10  005.22)  =  1 1  790.252 

5.  Ahora  bien,  la  idea  que  fundamenta  la  prueba  de  Chow  es  que  si  de  hecho  no  existe  un  cam- 
bio  estructural  [es  decir,  las  regresiones  (8.7.1)  y  (8.7.2)  son  esencialmente  las  mismas],  SCRr  y 
SCRNr  n°  deben  ser  estadisticamente  diferentes.  Por  tanto,  si  formamos  la  siguiente  razon: 


(SCRr  -  SCRnr)/ k 

F  =  TcTn? — 777 — 7 - 717  ~  i+«2-2*)] 

(SCRNr)/(«i  +n2-  2k) 


(8.7.4) 


Chow  demostro  que,  segun  la  hipotesis  nula,  las  regresiones  (8.7.1)  y  (8.7.2)  son  (estadistica¬ 
mente)  iguales  (es  decir,  no  hay  cambios  estructurales  ni  rupturas),  asi  que  la  razon  F  dada  antes 
sigue  una  distribucion  F  con  k  y  {n\  +  n2  —  2k)  gl  en  el  numerador  y  denominador,  respectiva- 
mente. 

6.  Por  tanto,  no  rechazamos  la  hipotesis  nula  de  la  estabilidad parametrica  (es  decir,  no  hay 
cambio  estructural)  si  el  valor  F  calculado  en  la  aplicacion  no  excede  el  valor  critico  F  obtenido 
de  la  tabla  F  en  el  nivel  elegido  de  significance  (o  el  valor  p).  En  este  caso  se  justificaria  la  re¬ 
gresion  conjunta  (^restringida?)  (8.7.3).  Por  el  contrario,  si  el  valor  F  calculado  excede  el  valor 
critico  F,  rechazamos  la  hipotesis  de  la  estabilidad  parametrica  y  concluimos  que  las  regresiones 
(8.7.1)  y  (8.7.2)  son  diferentes,  en  cuyo  caso  la  regresion  conjunta  (8.7.3)  es  de  dudoso  valor,  por 
decir  lo  menos. 

De  regreso  al  ejemplo,  tenemos  que 


_  (23  248.30  -  11  790.252)/2 

(11  790.252)/22  (8.7.5) 

=  10.69 


De  las  tablas  F  vemos  que  para  2  y  22  gl  el  valor  critico  Fa  1%  es  de  7.72.  Por  tanto,  laprobabi- 
lidad  de  obtener  un  valor  F  igual  o  mayor  que  10.69  es  mucho  menor  que  1%;  de  hecho,  el  valor 
p  solo  es  0.00057. 

La  prueba  de  Chow,  por  tanto,  parece  apoyar  la  anterior  conjetura  de  que  la  relacion  ahorro- 
ingreso  sufrio  un  cambio  estructural  en  Estados  Unidos  en  el  periodo  1970-1995,  pues  da  por 
hecho  que  se  satisfacen  las  suposiciones  subyacentes  en  la  prueba.  Diremos  mas  al  respecto  muy 
pronto. 

A  proposito,  observe  que  la  prueba  de  Chow  se  generaliza  con  facilidad  para  abarcar  casos  de 
mas  de  una  ruptura  estructural.  Por  ejemplo,  si  pensamos  que  la  relacion  ahorro-ingreso  cambio 
despues  de  que  el  presidente  Clinton  asumio  el  cargo  en  enero  de  1992,  dividimos  la  muestra  en 
tres  periodos:  1970-1981, 1982-1991  y  1992-1995,  y  aplicamos  la  prueba  de  Chow.  Por  supuesto, 
se  tendran  cuatro  terminos  SCR,  uno  para  cada  subperiodo  y  otro  para  todos  los  datos  juntos. 
Pero  la  logica  de  la  prueba  sigue  siendo  la  misma.  Ahora  disponemos  de  los  datos  para  2007,  por 
lo  que  se  puede  extender  el  ultimo  periodo  hasta  ese  ano. 

Se  deben  tener  presente  algunas  advertencias  respecto  de  la  prueba  de  Chow: 

1.  Las  suposiciones  en  la  prueba  deben  satisfacerse.  Por  ejemplo,  se  debe  averiguar  si  las 
varianzas  de  los  errores  en  las  regresiones  (8.7.1)  y  (8.7.2)  son  las  mismas.  Analizaremos  pronto 
este  punto. 
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2.  La  prueba  de  Chow  dira  solo  si  las  dos  regresiones  (8.7.1)  y  (8.7.2)  son  diferentes,  pero  no 
senalara  si  la  diferencia  se  debe  a  los  interceptos  o  a  las  pendientes,  o  a  ambos.  Pero  en  el  capitu- 
lo  9,  sobre  variables  dicotomas,  veremos  como  responder  lo  anterior. 

3.  La  prueba  de  Chow  supone  que  se  conoce(n)  el(los)  punto(s)  de  ruptura  estructural.  En  el 
ejemplo  anterior  supusimos  que  se  dio  en  1982.  No  obstante,  si  no  es  posible  determinar  cuando 
ocurrio  en  verdad  el  cambio  estructural,  habra  que  utilizar  otros  metodos.16 


Antes  de  finalizar  con  el  tema  de  la  prueba  de  Chow  y  la  regresion  ahorro-ingreso,  examinare- 
mos  una  de  las  suposiciones  implicitas  en  dicha  prueba,  a  saber,  que  las  varianzas  de  los  errores 
en  los  dos  periodos  son  las  mismas.  Como  no  pueden  observarse  las  verdaderas  varianzas  de 
los  errores  se  pueden  obtener  sus  estimaciones  a  partir  de  las  SCR  dadas  en  las  regresiones 
(8.7.  la)  y  (8.7.2 a),  a  saber: 


of  = 


SCR! 
n  i—2 


1  785.032 


10 


=  178.5032 


(8.7.6) 


a-, 


SLR  10  005.22 
n 2-2  ~~  14-2 


=  833.7683 


(8.7.7) 


Observe  que,  como  hay  dos  parametros  estimados  en  cada  ecuacion,  se  resta  2  al  numero  de 
observaciones  para  obtener  los  gl.  Segun  los  supuestos  en  la  prueba  de  Chow,  of  y  <r22  son  estima- 
dores  insesgados  de  las  verdaderas  varianzas  de  los  dos  subperiodos.  Como  resultado,  se  puede 
probar  que  si  of  =  a\,  es  decir,  las  varianzas  en  las  dos  subpoblaciones  son  las  mismas  (como 
supuso  la  prueba  de  Chow),  entonces  se  demuestra  que 


(^i7gi2) 

(<722/a22) 


F<n,~, 


(ni-£),(«2-£) 


(8.7.8) 


sigue  una  distribucion  F  con  (n\  —  k)  y  («2  —  k)  gl  en  el  numerador  y  el  denominador,  respectiva- 
mente  (para  este  ejemplo,  k  =  2),  porque  solo  hay  dos  parametros  en  cada  subregresion. 

Por  supuesto,  si  of  =  <r22,  la  prueba  F  anterior  se  reduce  a  calcular 

/v  2 

F  =  %  (8.7.9) 

ct2 


Nota:  Por  convention,  se  coloca  la  mas  grande  de  las  varianzas  estimadas  en  el  numerador.  (Vease 
el  apendice  A  para  detalles  sobre  la  distribucion  F  y  otras  distribuciones  de  probabilidad.) 

Si  calculamos  esta  F  en  una  aplicacion  y  la  comparamos  con  el  valor  critico  F  que  tenga  los 
apropiados  gl,  podemos  decidir  rechazar  o  no  la  hipotesis  nula  de  que  las  varianzas  en  las  dos 
subpoblaciones  son  las  mismas.  Si  no  rechazamos  la  hipotesis  nula  se  puede  utilizar  la  prueba 
de  Chow. 

De  nuevo  en  la  regresion  ahorro-ingresos,  obtenemos  el  siguiente  resultado: 


833.7683 

178.5032 


4.6701 


(8.7.10) 


Segun  la  hipotesis  nula  de  la  igualdad  de  las  varianzas  en  las  dos  subpoblaciones,  este  valor  F 
sigue  la  distribucion  F  con  12  y  10  gl  en  el  numerador  y  denominador,  respectivamente.  (Nota: 
Se  puso  la  mayor  de  las  dos  varianzas  estimadas  en  el  numerador.)  De  las  tablas  F  del  apendice 
D  se  ve  que  los  valores  criticos  F  de  5  y  1%  para  12  y  10  gl  son  2.91  y  4.71,  respectivamente.  El 


16  Para  un  analisis  detallado,  vease  William  H.  Greene,  Econometric  Analysis,  4a.  ed.,  Prentice  Hall,  Englewood 
Cliffs,  Nueva  Jersey,  2000,  pp.  293-297. 
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valor  calculado  F  es  significative  en  el  nivel  de  5%  y  es  casi  significativo  en  el  de  1%.  Por  tanto, 
la  conclusion  seria  que  las  varianzas  de  las  dos  subpoblaciones  no  son  iguales  y,  por  tanto,  en 
sentido  estricto,  no  debemos  utilizar  la  prueba  de  Chow. 

Aqui  el  proposito  fue  presentar  el  procedimiento  de  la  prueba  de  Chow  mas  comun  en  el  tra- 
bajo  aplicado.  Si  las  varianzas  de  los  errores  en  las  dos  subpoblaciones  son  heteroscedasticas,  se 
puede  modificar  la  prueba  de  Chow.  Pero  el  procedimiento  trasciende  el  alcance  de  este  libro.17 

Otro  punto  en  el  que  ya  hicimos  hincapie  fue  en  que  la  prueba  de  Chow  es  sensible  a  la  elec- 
cion  del  tiempo  en  que  los  parametros  de  la  regresion  deben  cambiarse.  En  este  ejemplo,  supu- 
simos  que  el  cambio  tal  vez  tuvo  lugar  en  la  recesion  de  1982.  Si  hubiesemos  supuesto  que  fue 
en  1981,  cuando  Ronald  Reagan  comenzo  su  mandato,  se  descubriria  que  el  valor  F  calculado  es 
diferente.  De  hecho,  en  el  ejercicio  8.34  se  pide  al  lector  verificar  esto. 

Si  no  deseamos  elegir  el  punto  en  el  que  pudo  ocurrir  la  ruptura  de  la  relation  subyacente,  ele- 
gimos  otros  metodos,  como  la  prueba  residual  recursiva.  Analizaremos  este  tema  en  el  capltulo 
13,  que  trata  sobre  el  analisis  de  especificacion  del  modelo. 


8.8  Prediccion  con  regresion  multiple 


En  la  section  5.10  mostramos  que  el  modelo  estimado  de  regresion  con  dos  variables  sirve  para 
1)  prediccion  de  la  media,  es  decir,  prediccion  puntual  sobre  la  funcion  de  regresion  poblacional 
(FRP),  y  tambien  para  2)  prediccion  individual,  es  decir,  prediccion  de  un  valor  individual  de  Y, 
dado  el  valor  de  la  regresora  X  —  X0,  donde  X0  es  el  valor  numerico  especifico  de  X. 

La  regresion  multiple  estimada  tambien  sirve  para  fines  similares,  y  el  procedimiento  para  ha- 
cerlo  es  una  extension  directa  del  caso  de  dos  variables,  con  exception  de  las  formulas  para  esti- 
mar  la  varianzay  el  error  estandar  de  los  valores  depronostico  [comparables  a  (5.10.2)  y  (5.10.6) 
del  modelo  con  dos  variables],  las  cuales  son  mas  bien  complejas  y  se  manejan  mejor  mediante 
los  metodos  matriciales  estudiados  en  el  apendice  C.  Por  supuesto,  la  mayoria  del  software  de 
regresion  efectua  esto  de  manera  rutinaria,  asi  que  no  hay  necesidad  de  recurrir  a  la  formulation 
matricial,  la  cual  se  da  en  el  apendice  C  para  beneficio  de  los  estudiantes  con  inclinaciones  ma- 
tematicas.  Ahi  tambien  se  proporciona  un  ejemplo  completo. 


*8.9 


La  triada  de  las  pruebas  de  hipotesis:  razon  de  verosimilitud 
(RV),  de  Wald  (W)  y  del  multiplicador  de  Lagrange  (ML)18 


En  este  capltulo  y  en  los  anteriores  utilizamos,  generalmente,  las  pruebas  t,F  y  ji  cuadrada  para 
probar  diversas  hipotesis  en  el  contexto  de  los  modelos  de  regresion  lineal  (en  parametros).  Pero 
una  vez  que  salimos  del  comodo  mundo  de  los  modelos  de  regresion  lineal,  se  necesitan  metodos 
para  probar  hipotesis  con  los  que  se  manejen  modelos  de  regresion,  lineales  o  no  lineales. 

Con  la  conocida  triada  de  pruebas  de  verosimilitud,  de  Wald  y  del  multiplicador  de  La¬ 
grange  se  logra  este  proposito.  Lo  interesante  es  que  asintoticamente  (es  decir,  en  muestras 


‘Opcional. 

17  Para  un  estudio  de  la  prueba  de  Chow  con  heteroscedasticidad,  vease  William  H.  Greene,  Econometric 
Analysis,  4a.  ed.,  Prentice  Hall,  Englewood  Cliffs,  Nueva  Jersey,  2000,  pp.  292-293,  y  Adrian  C.  Darnell,  A 
Dictionary  of  Econometrics,  Edward  Elgar,  Reino  Unido,  1994,  p.  51. 

18  Vease  una  exposicion  sencilla  en  A.  Buse,  "The  Likelihood  Ratio,  Wald  and  Lagrange  Multiplier  Tests:  An 
Expository  Note",  American  Statistician,  vol.  36,  1982,  pp.  153-157. 
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grandes)  las  tres  pruebas  son  equivalentes  en  cuanto  a  que  la  estadistica  de  prueba  asociada  a 
cada  prueba  sigue  la  distribucion  ji  cuadrada. 

Aunque  estudiaremos  la  prueba  de  la  razon  de  verosimilitud  en  el  apendice  de  este  capltulo, 
en  general  no  utilizaremos  este  tipo  de  pruebas  en  este  libro  de  texto  por  la  razon  pragmatica 
de  que  en  muestras  pequenas  o  finitas,  que  son  las  que,  por  desgracia,  maneja  la  mayorla  de  los 
investigadores,  bastara  la  prueba  F  que  hemos  visto  hasta  ahora.  Como  lo  anotan  Davidson  y 
MacKinnon: 

Para  modelos  de  regresion  lineal,  con  errores  normales  o  sin  ellos,  no  hay  necesidad  de  revisar  ML, 

W  y  RY  pues,  al  hacerlo  no  se  gana  informacion  adicional  a  la  contenida  en  F.19 


*8.10 


Prueba  de  la  forma  funcional  de  la  regresion: 
eleccion  entre  modelos  de  regresion  lineal  y  log-lineal 


La  seleccion  entre  un  modelo  de  regresion  lineal  (la  regresora  es  una  funcion  lineal  de  las  regre- 
soras)  o  un  modelo  de  regresion  log-lineal  (el  logaritmo  de  la  regresora  es  funcion  de  los  logarit- 
mos  de  las  regresoras)  es  la  eterna  pregunta  en  el  analisis  empirico.  Se  puede  utilizar  una  prueba 
propuesta  por  MacKinnon,  White  y  Davidson,  que  se  denomina,  por  brevedad,  prueba  MWD, 
para  escoger  entre  los  dos  modelos.20 

Para  ilustrar  esta  prueba  suponga  lo  siguiente: 

Ho:  Modelo  lineal:  Y  es  una  funcion  lineal  de  las  regresoras,  las  A. 

H\ :  Modelo  log-lineal:  In  Y  es  funcion  lineal  de  los  logaritmos  de  las  regresoras,  los  logaritmos 
de  las  X. 

donde,  como  es  usual,  H0  y  Hi  denotan  las  hipotesis  nula  y  alterna. 

La  prueba  MWD  comprende  los  siguientes  pasos:21 

Paso  I:  Estime  el  modelo  lineal  y  obtenga  los  valores  Y estimados.  Llamelos  Yf  (es  decir,  Y ). 
Paso  II:  Estime  el  modelo  log-lineal  y  obtenga  los  valores  In  Y estimados;  denomine  In  /  (es 
decir,  In  Y . 

Paso  III:  Obtenga  Z,  =  (In  Yf  -  In  /). 

Paso  IV:  Efectue  la  regresion  de  Y  sobre  las  Xy  Z\  obtenida  en  el  paso  III.  Rechace  Hq  si  el 
coeficiente  de  Z\  es  estadisticamente  significativo  mediante  la  prueba  t  usual. 

Paso  V:  Obtenga  Z2  =  (antilog  de  In  f  —  Yf). 

Paso  VI:  Efectue  la  regresion  del  logaritmo  de  Y  sobre  los  logaritmos  de  las  X y  Z2.  Rechace 
H\  si  el  coeficiente  de  Z2  es  estadisticamente  significativo  mediante  la  prueba  t  usual. 

Aunque  la  prueba  MWD  parece  compleja,  su  logica  es  muy  simple.  Si  el  modelo  lineal  es  en  rea¬ 
lidad  el  modelo  correcto,  la  variable  construida  Z\  no  debe  ser  estadisticamente  significativa  en 
el  paso  IV,  pues  en  ese  caso  los  valores  Y  estimados  del  modelo  lineal  y  los  estimados  del  modelo 
log-lineal  (despues  de  obtener  sus  valores  antilog  para  efectos  comparativos)  no  deben  diferir.  El 
mismo  comentario  vale  para  la  hipotesis  alterna  If . 


"Opcional. 

19  Russell  Davidson  y  James  G.  MacKinnon,  Estimation  and  Inference  in  Econometrics,  Oxford  University  Press, 
Nueva  York,  1993,  p.  456. 

20  J.  Mackinnon,  H.  White  y  R.  Davidson,  "Tests  for  Model  Specification  in  the  Presence  of  Alternative  Hypo¬ 
thesis:  Some  Further  Results",  journal  of  Econometrics,  vol.  21,  1983,  pp.  53-70.  Se  propone  una  prueba 
similar  en  A.  K.  Bera  y  C.  M.  Jarque,  "Model  Specification  Tests:  A  Simultaneous  Approach",  journal  of  Econo¬ 
metrics,  vol.  20,  1982,  pp.  59-82. 

21  Este  analisis  se  basa  en  William  H.  Greene,  ET:  The  Econometrics  Toolkit  Version  3,  Econometric  Software, 
Bellport,  Nueva  York,  1992,  pp.  245-246. 


Capftulo  8  Analisis  de  regresion  multiple:  el problema  de  la  inferencia  261 


EJEMPLO  8.5 

Demanda  de  rosas 


Consulte  el  ejercicio  7.16,  en  el  cual  se  presenta  informacion  sobre  la  demanda  de  rosas  en  el 
area  metropolitana  de  Detroit  de  1971-111  a  1975-11.  Para  fines  ilustrativos  consideraremos  la 
demanda  de  rosas  como  funcion  solo  de  los  precios  de  las  rosas  y  de  los  claveles,  y  dejaremos 
fuera,  por  el  momento,  la  variable  ingreso.  Ahora  consideremos  los  siguientes  modelos: 

Modelo  lineal:  Yt  =  a-\  +  ot2^it  +  +  ut  (8.10.1) 

Modelo  log-lineal:  In  V)  = /h  +  ^2  In  X2H- ft  In  X3H- (8.10.2) 

donde  Y  es  la  cantidad  de  rosas  por  docenas,  X2  es  el  precio  promedio  de  las  rosas  al  mayoreo 
($/docena)  y  X3  es  el  precio  promedio  de  los  claveles  al  mayoreo  ($/docena).  Se  espera,  a  priori, 
que  U2  y  Pi  sean  negativos  (,;por  que?),  y  que  0:3  y  ft  sean  positivos  (ipor  que?).  Como  se  sabe, 
los  coeficientes  de  pendiente  en  los  modelos  log-lineal  son  coeficientes  de  elasticidad. 

Los  resultados  de  las  regresiones  son  los  siguientes: 

Yt  =  9  734.21  76  -  3  782.1 956X2f  +  2  81 5.251 5X3f 
t=  (3.3705)  (-6.6069)  (2.9712)  (8.10.3) 

F  =  21.84  R2  =  0.77096 

ln?t  =  9.2278  -  1 .7607  lnX2t  +  1 .3398  lnX3t 

t=  (16.2349)  (-5.9044)  (2.5407)  (8.10.4) 

F  =  17.50  R2=  0.7292 

Como  lo  indican  estos  resultados,  ambos  modelos,  el  lineal  y  el  log-lineal,  parecen  ajustarse  a  la 
informacion  razonablemente  bien:  los  parametros  tienen  los  signos  esperados  y  los  valores  t  y  R2 
son  estadfsticamente  significativos. 

Para  decidir  entre  estos  modelos  con  base  en  la  prueba  MWD,  se  prueba  primero  la  hipo- 
tesis  de  que  el  modelo  verdadero  es  lineal.  Luego,  segun  el  paso  IV  de  la  prueba,  obtenemos  la 
siguiente  regresion: 

Yt=  9  727.5685  -  3  783.0623X2t  +  2  81  7.71 57X3t  +  85.231 9ZU 

t=  (3.2178)  (-6.3337)  (2.8366)  (0.0207)  (8.10.5) 

F=  13.44  R2  =  0.7707 

Como  el  coeficiente  de  Zi  no  es  estadfsticamente  significativo  (el  valor  p  del  t  estimado  es  0.98), 
no  rechazamos  la  hipotesis  de  que  el  verdadero  modelo  es  lineal. 

Suponga  que  aceleramos  el  proceso  y  que  el  verdadero  modelo  es  log-lineal.  Segun  el  paso 
VI  de  la  prueba  MWD,  obtenemos  los  siguientes  resultados  de  la  regresion: 

ln?t=  9.1486  -  1.9699  In  Xt+  1.5891  In  X2t-  0.001  3Z2t 

t=  (17.0825)  (-6.4189)  (3.0728)  (-1.6612)  (8.10.6) 

F=  14.17  R2=  0.7798 

El  coeficiente  de  Z2  es  estadfsticamente  significativo  en  un  nivel  de  significancia  de  1 2%  (el  valor 
p  es  0.1225).  Por  consiguiente,  podemos  rechazar  la  hipotesis  de  que  el  verdadero  modelo  es 
log-lineal  en  este  nivel  de  significancia.  Por  supuesto,  si  utilizamos  los  niveles  de  significancia 
convencionales  de  1  y  5%,  entonces  no  podemos  rechazar  la  hipotesis  de  que  el  verdadero 
modelo  es  log-lineal.  Como  muestra  este  ejemplo,  es  muy  posible  que  en  una  situacion  dada  no 
podamos  rechazar  una  u  otra  de  las  especificaciones. 
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Resumen  y 
conclusiones 


EJERCICIOS 


1 .  En  este  capitulo  se  extendieron  y  refinaron  las  ideas  sobre  estimation  por  intervalos  y  pruebas 
de  hipotesis  presentadas  en  el  capitulo  5  en  el  contexto  del  modelo  de  regresion  lineal  con  dos 
variables. 

2.  En  la  regresion  multiple,  la  prueba  de  significancia  individual  de  un  coeficiente  de  regresion 
parcial  (con  la  prueba  t)  y  la  prueba  de  la  significancia  general  de  la  regresion  (es  decir,  I  by. 
todos  los  coeficientes  de  pendiente  parcial  son  cero  o  R2  =  0)  no  son  la  misma  cosa. 

3.  En  particular,  encontrar  que  uno  o  mas  coeficientes  de  regresion  parcial  no  son  estadistica- 
mente  significativos  con  base  en  la  prueba  t  individual  no  significa  que  todos  los  coeficientes 
de  regresion  parcial  (colectivamente)  tampoco  sean  significativos.  Esta  ultima  hipotesis  solo 
se  prueba  mediante  la  prueba  F. 

4.  La  prueba  F  tiene  gran  versatilidad,  pues  con  ella  se  pueden  probar  diversas  hipotesis,  como 
1)  si  un  coeficiente  de  regresion  individual  es  estadisticamente  significativo,  2)  si  todos  los 
coeficientes  de  pendiente  parciales  son  cero,  3)  si  dos  o  mas  coeficientes  son  estadisticamente 
iguales,  4)  si  los  coeficientes  satisfacen  algunas  restricciones  lineales  y  5)  si  el  modelo  de 
regresion  posee  estabilidad  estructural. 

5.  Como  en  el  caso  de  dos  variables,  el  modelo  de  regresion  multiple  sirve  para  fines  de  predic¬ 
tion  de  media  y/o  individual. 


Preguntas 

8.1.  Suponga  que  desea  estudiar  el  comportamiento  de  las  ventas  de  un  producto,  por  ejemplo, 
automoviles,  sobre  un  numero  de  anos,  y  suponga  que  alguien  sugiere  ensayar  los  siguien- 
tes  modelos: 

Yt  —  Po  +  Pit 
Y,  —  ao  +  a\t  +  oi2t2 

donde  Y,  =  ventas  en  el  tiempo  t  y  t  —  tiempo,  medido  en  anos.  El  primer  modelo  postula 
que  la  variable  ventas  es  una  funcion  lineal  del  tiempo,  mientras  que  el  segundo  plan- 
tea  que  es  funcion  cuadratica  del  tiempo. 

a)  Analice  las  propiedades  de  estos  modelos. 

b )  ^  Co  trio  decidiria  entre  los  dos  modelos? 

c)  ^,En  que  situaciones  seria  util  el  modelo  cuadratico? 

d)  Obtenga  information  sobre  ventas  de  automoviles  en  Estados  Unidos  durante  los  pasa- 
dos  20  anos  y  vea  que  modelo  se  ajusta  mejor  a  los  datos. 

8.2.  Demuestre  que  la  razon  Fdc  (8.4.16)  es  igual  a  la  razon  F  de  (8.4.18).  ( Sugerencia :  SCE/ 
SCT  =  R2.) 

8.3.  Demuestre  que  las  pruebas  F  de  (8.4.18)  y  (8.6.10)  son  equivalentes. 

8.4.  Justifique  los  supuestos  en  (8.6.11)  y  (8.6.12). 

8.5.  Considere  la  funcion  de  produccion  Cobb-Douglas 

Y  =  pxL^K^  (1) 

donde  Y  =  produccion,  L  =  insumo  trabajo  y  K  =  insumo  capital.  A1  dividir  (1)  entre  K, 
obtenemos: 

(Y  /  K)  =  Pi(L  /  K)h  Kh+h~x  (2) 

A1  tomar  el  logaritmo  natural  de  (2)  tenemos: 

In (Y/K)  =  p0  +  p2  hv(L/K)  +  (p2  +  p3  -  1)  In  K  +  h, 


(3) 


Capftulo  8  Andlisis  de  regresion  multiple:  el problema  de  la  inferencia  263 


donde  /J0  =  In  P\- 

a)  Suponga  que  tenia  informacion  para  hacer  la  regresion  (3).  pComo  probaria  la  hipote- 
sis  de  que  hay  rendimientos  constantes  a  escala,  es  decir,  ((->2  +  Pi)  =  1? 

b)  De  existir  rendimientos  constantes  a  escala,  pcomo  interpretaria  la  regresion  (3)? 

c)  pHay  alguna  diferencia  si  divide  (1)  entre  L  en  lugar  de  hacerlo  entre  K7 

8.6.  Valores  criticos  de  R 2  cuando  la  verdadera  R 2  =  0.  La  ecuacion  (8.4.1 1)  da  la  relacion 
entre  F  y  R2  segun  la  hipotesis  de  que  todos  los  coeficientes  de  pendiente  parciales  son 
simultaneamente  iguales  a  cero  (es  decir,  R2  =  0).  De  la  misma  manera  en  que  podemos 
encontrar  el  valor  F  critico  en  el  nivel  de  significance  a  de  la  tabla  F,  es  posible  encontrar 
el  valor  R2  critico  a  partir  de  la  siguiente  relacion: 


R2 


(k-l)F 

(. k  -  1  )F  +  (n-  k ) 


donde  k  es  el  numero  de  parametros  en  el  modelo  de  regresion,  inclusive  el  intercepto, 
y  donde  F  es  el  valor  F  critico  en  el  nivel  de  significance  a.  Si  el  R2  observado  excede  el 
R2  critico  obtenido  de  la  formula  anterior  rechazamos  la  hipotesis  de  que  el  verdadero  R2 
es  cero. 

Establezca  la  formula  anterior  y  encuentre  el  valor  R2  critico  (para  a  —  5%)  para  la 
regresion  (8.1.4). 

8.7.  Con  base  en  informacion  anual  de  los  anos  1968-1987  se  obtuvieron  los  siguientes  resul- 
tados  de  regresion: 

%  =  -859.92  +  0.6470X2,  -  23.195X,,  R2  =  0.9776  (1) 

Y,  =  -261.09  +  0.2452^2,  R2  =  0.9388  (2) 


donde  Y  —  gasto  de  Estados  Unidos  en  bienes  importados,  miles  de  millones  de  dolares 
de  1982,  X2  =  ingreso  personal  disponible,  miles  de  millones  de  dolares  de  1982  yX3  = 
variable  de  tendencia.  Cierto  o  falso :  El  error  estandar  deX3  en  (1)  es  4.2750.  Muestre  sus 
calculos.  (Sugerencia:  Utilice  la  relacion  entre  R2,  F  y  t.) 

8.8.  Suponga  que  en  la  regresion 

ln(y,/X2/)  =ax+u2  In X2i  +  a3  lnX3,  +  m, 

se  conocen  los  valores  de  los  coeficientes  de  regresion  y  sus  errores  estandar.*  Asi,  ,',como 
estimaria  los  parametros  y  los  errores  estandar  del  siguiente  modelo  de  regresion? 

In  Y,  —  fix  +  fi2  In  X2i  +  Pi  lnX3l-  +  w. 


8.9.  Suponga  lo  siguiente: 

Yi  —  Pi  +  p2X2l  +  PiXa  +  PaX2iXh  +  u, 

donde  Y  es  el  gasto  de  consumo  personal,  X2  es  el  ingreso  personal  y  X3  es  la  riqueza  per¬ 
sonal.^  El  termino  (X2l  Xu)  se  conoce  como  termino  de  interaccion.  pQue  significa  esta 
expresion?  ,',C6mo  probaria  la  hipotesis  de  que  la  propension  marginal  a  consumir  (PMC) 
(es  decir,  p2)  es  independiente  de  la  riqueza  del  consumidor? 


*  Adaptado  de  Peter  Kennedy,  A  Guide  to  Econometrics,  the  MIT  Press,  3a.  ed.,  Cambridge,  Massachusetts, 
1992,  p.  310. 
t  Ibid.,  p.  327. 
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8.10.  Se  le  dan  los  siguientes  resultados  de  regresion: 


Yt  =  16  899 
t  =  (8.5152) 

Y,  =  9  734.2 

t  =  (3.3705) 


-  2  978.5X2, 

(-4.7280) 

—  3  782.2X2/  +  2  815^3, 

(-6.6070)  (2.9712) 


R2  =  0.6149 
R2  =  0.7706 


^Puede  encontrar  el  tamaiio  de  la  muestra  en  la  cual  se  basan  estos  resultados?  ( Sugeren - 

da:  Recuerde  la  relation  entre  los  valores  de  R2,  F  y  t.) 

8.11.  Con  base  en  el  analisis  de  pruebas  de  hipotesis  individuates  y  conjuntas  a  partir  de  las 

pruebas  t  y  F  respectivamente,  ^cuales  de  las  siguientes  situaciones  son  probables? 

1 .  Rechazar  la  nula  conjunta  con  base  en  el  estadistico  F,  pero  no  rechazar  cada  nula  por 
separado  con  base  en  las  pruebas  t  individuales. 

2.  Rechazar  la  nula  conjunta  con  base  en  el  estadistico  F,  rechazar  una  hipotesis  individual 
con  base  en  la  prueba  t  y  no  rechazar  otras  hipotesis  individuales  con  base  en  la  prue- 
ba  t. 

3.  Rechazar  la  nula  conjunta  con  base  en  el  estadistico  F,  y  rechazar  cada  hipotesis  nula 
por  separado  con  base  en  pruebas  t  individuales. 

4.  No  rechazar  la  nula  conjunta  con  base  en  el  estadistico  F,  y  no  rechazar  cada  nula  por 
separado  con  base  en  las  pruebas  t  individuales. 

5.  No  rechazar  la  nula  conjunta  con  base  en  el  estadistico  F,  rechazar  una  hipotesis  indivi¬ 
dual  con  base  en  una  prueba  t  y  no  rechazar  otras  hipotesis  individuales  con  base  en  la 
prueba  t. 

6.  No  rechazar  la  nula  conjunta  con  base  en  el  estadistico  F,  pero  rechazar  cada  nula  por 
separado  con  base  en  pruebas  t  individuales.* 


Ejercicios  empfricos 

8.12.  Consulte  el  ejercicio  7.21. 

a)  ^Cuales  son  las  elasticidades  del  ingreso  real  y  de  la  tasa  de  interes  de  los  balances 
reales  de  efectivo? 

b)  ^Son  las  elasticidades  anteriores,  consideradas  en  forma  individual,  estadisticamente 
significativas? 

c)  Pruebe  la  significance  general  de  la  regresion  estimada. 

d)  (;Es  la  elasticidad  del  ingreso  de  la  demanda  por  balances  reales  de  efectivo  significati- 
vamente  diferente  de  la  unidad? 

e )  ,',Dcbc  conservarse  en  el  modelo  la  variable  tasa  de  interes?  <(Por  que? 

8.13.  De  los  datos  de  46  estados  de  Estados  Unidos  para  1992,  Baltagi  obtuvo  los  siguientes 
resultados  de  regresion:1" 

logC  =  4.30  -  1.34  log P  +  0.17  log  Y 

ee  =  (0.91)  (0.32)  (0.20)  R2  —  0.27 

donde  C  =  consumo  de  cigarrillos,  paquetes  al  ano 
P  =  precio  real  por  paquete 
Y  =  ingreso  disponible  real  per  capita 


*  Citado  de  Ernst  R.  Berndt,  The  Practice  of  Econometrics:  Classic  and  Contemporary,  Addison-Wesley,  Reading, 
Massachusetts,  1991,  p.  79. 

tVease  Badi  H.  Baltagi,  Econometrics,  Springer-Verlag,  Nueva  York,  1998,  p.  111. 
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a)  pCual  es  la  elasticidad  de  la  demanda  para  los  cigarrillos  respecto  del  precio?  <(Es  esta- 
dlsticamente  significativa?  Si  ese  es  el  caso,  /.es  estadisticamente  diferente  de  1? 

b )  /.Ciial  es  la  elasticidad  del  ingreso  de  la  demanda  de  cigarrillos?  pEs  estadisticamente 
significativa?  Si  no  es  asi,  (.cuales  serian  las  razones? 


c)  (',C6mo  obtendria  R2  de  la  R2  ajustada  dada  antes? 


8.14.  De  una  muestra  de  209  empresas,  Wooldridge  obtuvo  los  siguientes  resultados  de  regre¬ 


sion:* 


log  (salario)  =  4.32  +  0.280  log  (ventas)  +  0.0174  re  +  0.00024  rae 
ee  =  (0.32)  (0.035)  (0.0041)  (0.00054) 

R2  =  0.283 


donde  salario  =  salario  del  director  general 
ventas  =  ventas  anuales  de  la  empresa 

rc  =  rendimientos  del  capital,  en  porcentaje 
rae  =  rendimientos  de  las  acciones  de  la  empresa 

y  donde  las  cifras  entre  parentesis  son  los  errores  estandar  estimados. 

a)  Interprete  la  regresion  anterior  tomando  en  cuenta  cualesquiera  expectativas  que  tenga 
respecto  de  los  signos  de  los  distintos  coeficientes. 

b )  pCuales  de  los  coeficientes  son  estadisticamente  significativos  en  lo  individual,  en  el 
nivel  de  5%? 

c)  pCual  es  la  significancia  general  de  la  regresion?  (,Que  pruebas  utilizaria?  (,Por  que? 

d)  ^Puede  interpretar  los  coeficientes  rc  y  rae  como  coeficientes  de  elasticidad?  ,',Por 


que? 


8.15.  Si  se  supone  que  Y  y  X2,  A3,  .  .  .  ,  A?,  siguen  una  distribucion  normal  conjunta  y  que  la 
hipotesis  nula  plantea  que  las  correlaciones  parciales  poblacionales  son  individualmente 
iguales  a  cero,  R.  A.  Fisher  demostro  que 


D2.3  4..W«  -  k-  2 


t  — 


sigue  la  distribucion  t  con  n  —  k  —  2  gl,  donde  k  es  el  coeficiente  de  correlacion  parcial 
de  grado  k  y  n  es  el  numero  total  de  observaciones.  ( Nota :  rl23  es  un  coeficiente  de  corre¬ 
lacion  parcial  de  primer  orden,  ;-|  2.34  es  un  coeficiente  de  correlacion  parcial  de  segundo 
orden  y  asi  sucesivamente.)  Consulte  el  ejercicio  7.2.  Si  se  supone  que  Yy  X2y  X3  siguen 
una  distribucion  normal  conjunta,  calcule  las  tres  correlaciones  parciales  r\ 2.3,  r,  3  2  y  r23.i, 
y  pruebe  su  significancia  segun  la  hipotesis  de  que  las  correlaciones  poblacionales  corres- 
pondientes  son  individualmente  iguales  a  cero. 

8.16.  A1  estudiar  la  demanda  de  tractores  agricolas  en  Estados  Unidos  durante  los  periodos 
1921-1941  y  1948-1957,  Grilichcs'  obtuvo  los  siguientes  resultados: 


logF,  =  constante  -  0.519  logW2,  -  4.933  log  X3,  R2  =  0.793 
(0.231)  (0.477) 


*  Vease  Jeffrey  M.  Wooldridge,  Introductory  Econometrics,  South-Western  Publishing,  2000,  pp.  154-155. 
t  Z.  Griliches,  "The  Demand  for  a  Durable  Input:  Farm  Tractors  in  the  United  States,  1 921  -1 957",  en  The 
Demand  for  Durable  Goods,  Arnold  C.  Harberger  (ed.),  The  University  of  Chicago  Press,  Chicago,  1 960, 
tabla  1 ,  p.  1 92. 
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donde  Y,  =  valor  de  las  existencias  de  tractores  en  las  granjas  el  1  de  enero,  en  dolares  de 
1935-1939,  X2  =  Indice  de  precios  pagado  por  los  tractores  dividido  entre  un  mdice 
de  precios  recibidos  por  todas  las  cosechas  en  el  tiempo  t  —  1,  X3  =  tasa  de  interes  preva- 
lente  en  el  ano  t  —  1,  y  los  errores  estandar  estan  dados  entre  parentesis. 

a)  Interprete  la  regresion  anterior. 

b)  /.Son  los  coeficientes  de  pendiente  estimados  estadisticamente  significativos  de  manera 
individual?  /.Son  significativamente  diferentes  de  la  unidad? 

c)  Utilice  la  tecnica  de  analisis  de  varianza  para  probar  la  significancia  de  la  regresion  en 
general.  Sugerencia:  Utilice  la  variante  R1  de  la  tecnica  ANOVA. 

d)  /.Como  calcularia  la  elasticidad  tasa  de  interes  de  la  demanda  de  tractores  agricolas? 

e )  /.Como  probaria  la  significancia  del  R1  estimado? 

8.17.  Considere  la  siguiente  ecuacion  de  determinacion  de  salarios  para  la  economia  britanica* 
durante  el  periodo  1950-1969: 

Wt=  8.582  +  0.364(PF)r  +  0.004(PF),_!  -  2.560L) 

(1.129)  (0.080)  (0.072)  (0.658) 

R2  =  0.873  gl  =  15 

donde  W  —  sueldos  y  salarios  por  empleado 

PF  =  precios  del  producto  final  al  factor  de  costo 

U  —  desempleo  en  Gran  Bretana  como  porcentaje  del  numero  total  de  empleados  de 
Gran  Bretana 
t  —  tiempo 

(Las  cifras  en  parentesis  son  los  errores  estandar  estimados.) 

a)  Interprete  la  ecuacion  anterior. 

b )  /.Son  los  coeficientes  estimados  individualmente  significativos? 

c)  /.Cual  es  el  razonamiento  para  introducir  (PF),_i? 

d)  /.Debe  eliminarse  del  modelo  la  variable  (PF),_i?  /.Por  que? 

e )  /.Como  calcularia  la  elasticidad  de  sueldos  y  salarios  por  empleado  respecto  de  la  tasa 
de  desempleo  U? 

8.18.  Una  variacion  de  la  ecuacion  de  determinacion  de  salarios  del  ejercicio  8.17  es  la  si¬ 
guiente:1' 

W,=  1.073  +  5.288  U  —  0.116X,+  0.054M,+  0.046 
(0.797)  (0.812)  (0.111)  (0.022)  (0.019) 

R2  =  0.934  gl  =  14 

donde  W  —  sueldos  y  salarios  por  empleado 

V  —  empleos  vacantes  como  porcentaje  del  numero  total  de  empleados  en  Gran 
Bretana 

X  —  producto  interno  bruto  por  persona  empleada 
M  —  precios  de  importaciones 

M,- 1  =  precios  de  importaciones  en  el  ano  anterior  (o  rezagado) 

(Los  errores  estandar  estimados  estan  dados  entre  parentesis.) 


*  Tornado  de  Prices  and  Earnings  in  1951-1 969:  An  Econometric  Assessment,  Departamento  de  Empleo, 
HMSO,  1971,  ecuacion  (19),  p.  35. 
t  Ibid.,  ecuacion  (67),  p.  37. 
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a)  Interprete  la  ecuacion  anterior. 

b)  pCuales  de  los  coeficientes  estimados  son  estadisticamente  significativos  individual- 
mente? 

c)  /.Cual  es  el  razonamiento  para  la  introduccion  de  la  variable  X?  A  priori,  /,se  espera  que 
el  signo  de  X  sea  negativo? 

d )  pCual  es  el  proposito  de  incluir  M,  y  Mt-\  en  el  modelo? 

e)  pCuales  variables  pueden  sacarse  del  modelo?  pPor  que? 

/)  Pruebe  la  significance  general  de  la  regresion  observada. 

19.  Para  la  funcion  de  demanda  de  polios  estimada  en  (8.6.24),  ('.es  la  elasticidad  ingreso  esti- 
mada  igual  a  1?  pEs  la  elasticidad  precio  igual  a  —1? 

20.  Para  la  funcion  de  demanda  (8.6.24),  pcomo  probaria  la  hipotesis  de  que  la  elasticidad 
ingreso  es  igual  en  valor  pero  opuesta  en  signo  a  la  elasticidad  precio  de  la  demanda? 
Muestre  los  calculos  necesarios.  ( Nota :  cov  fc,  Pi]  =  —0.00142.) 

21.  Consulte  la  funcion  de  demanda  de  rosas  del  ejercicio  7.16.  Centre  su  atencion  en  la  espe- 
cificacion  logaritmica. 

a)  /.Cual  es  la  elasticidad  precio-propio  de  la  demanda  estimada  (es  decir,  la  elasticidad 
respecto  del  precio  de  las  rosas)? 

b)  ^Es  estadisticamente  significativa? 

c)  De  ser  asi,  (',es  significativamente  diferente  de  la  unidad? 

d )  A  priori,  (',cuales  son  los  signos  esperados  de  76?  (precio  de  los  claveles)  y  X4  (ingreso)? 
/.Corrcspondcn  los  resultados  empiricos  a  estas  expectativas? 

e )  Si  los  coeficientes  de  Xi  y  X4  no  son  estadisticamente  significativos,  ^cuales  pueden  ser 
las  razones? 

22.  Consulte  el  ejercicio  7.17,  relacionado  con  la  actividad  de  exploracion  de  pozos. 

a)  /.Es  cada  uno  de  los  coeficientes  de  pendiente  estimados  estadisticamente  significativo 
individualmente  en  el  nivel  de  5%? 

b)  ^Rechazaria  la  hipotesis  de  que  R1  —  0? 

c)  ^Cual  es  la  tasa  de  crecimiento  instantanea  de  la  actividad  de  exploracion  durante  el 
periodo  1948-1978?  (',Cual  es  la  tasa  de  crecimiento  compuesta  correspondiente? 

23.  Consulte  los  resultados  de  la  regresion  de  los  gastos  de  presupuesto  de  defensa  de  Estados 
Unidos  estimada  en  el  ejercicio  7.18. 

a)  Comente,  en  terminos  generales,  los  resultados  de  regresion  estimados. 

b)  Prepare  la  tabla  ANOVA  y  pruebe  la  hipotesis  de  que  todos  los  coeficientes  de  pen¬ 
diente  parciales  son  iguales  a  cero. 

24.  La  siguiente  funcion  se  conoce  como  la  funcion  de  produccion  trascendental  (FPT), 
generalizacion  de  la  conocida  funcion  de  produccion  Cobb-Douglas: 

Yt  =  plL^k^efiiL+PiK 

donde  Y  =  produccion,  L  =  insumo  trabajo  y  K  —  insumo  capital. 

Despues  de  tomar  logaritmos  y  de  sumar  el  termino  de  perturbacion  estocastico,  obtene- 
mos  la  FPT  estocastica  como 


In  )')  —  fio  +  f32  In  Li  +  Pi  In  K,  +  Pa T,  +  PiKj  +  Ui 
donde  Po  =  In  P\. 

a)  ^Cuales  son  las  propiedades  de  esta  funcion? 

b)  Para  reducir  la  FPT  a  la  funcion  de  produccion  Cobb-Douglas,  /.cualcs  deben  ser  los 
valores  de  Pa  y  /I5? 
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c )  Si  tuviera  la  informacion,  ^como  haria  para  encontrar  la  forma  en  la  que  la  FPT  se 
reduce  a  la  funcion  de  produccion  Cobb-Douglas?  ^Que  procedimiento  de  prueba  uti- 
lizaria? 

d )  Verifique  si  la  FPT  se  ajusta  a  los  datos  de  la  tabla  8.8.  Muestre  sus  calculos. 

8.25.  Precios  de  energia  y  formation  de  capital:  Estados  Unidos,  1948-1978.  Para  probar  la 
hipotesis  de  que  un  aumento  en  el  precio  de  la  energia  relativo  a  la  produccion  provoca 
un  descenso  en  la  productividad  del  capital  existente  y  de  los  recursos  laborales,  John  A. 
Tatom  estimo  la  siguiente  funcion  de  produccion  para  Estados  Unidos,  durante  el  periodo 
trimestral  1948-1  a  1978-11:* 

hUjfkj^  1.5492  +  0.7135  In (h/k) 

(16.33)  (21.69) 

+  0.0045L  R2 

(15.86) 

donde  y  —  produccion  real  en  el  sector  de  negocios  privado 
k  —  una  medida  del  flujo  de  servicios  de  capital 
h  —  horas  por  persona  en  el  sector  de  negocios  privado 
Pe  —  indice  de  precios  al  productor  para  combustible  y  productos  relacionados 
P  —  deflactor  de  precios  del  sector  de  negocios  privado 
t  —  tiempo 

Los  numeros  en  parentesis  son  los  estadisticos  t. 

a)  /.Apoyan  los  resultados  la  hipotesis  del  autor? 

b)  Entre  1972  y  1977,  el  precio  relativo  de  la  energia  ( Pe/P )  aumento  60%.  A  partir  de  la 
regresion  estimada,  (',cual  es  la  perdida  en  productividad? 

c)  Despues  de  permitir  los  cambios  en  (h/k)  y  ( Pe/P ),  ^cual  fue  la  tendencia  de  la  tasa  de 
crecimiento  de  la  productividad  durante  el  periodo  muestral? 

d)  ^  Co  trio  interpreta  el  valor  del  coeficiente  de  0.7135? 

e)  ^E1  hecho  de  que  cada  coeficiente  de  pendiente  parcial  estimado  sea  estadisticamente 
significativo  en  el  nivel  individual  (/,por  que?)  significa  que  podemos  rechazar  la  hipo¬ 
tesis  de  que  R 2  =  0?  /.Por  que? 

8.26.  La  demanda  de  cable.  La  tabla  8.10  presenta  los  datos  de  un  fabricante  de  cable  telefo- 
nico  para  pronosticar  las  ventas  a  uno  de  sus  principales  clientes  durante  el  periodo  1968- 
1983.t 

Las  variables  en  la  tabla  se  definen  de  la  siguiente  forma: 

Y  =  ventas  anuales  en  millones  de  pies  de  cables  pareados  (MPC) 

X2  =  Producto  Interno  Bruto  (PIB),  $,  miles  de  millones 
A3  =  construccion  de  nuevas  viviendas,  miles  de  unidades 
X4  =  tasa  de  desempleo,  % 

X5  =  tasa  preferencial  rezagada  6  meses 
X6  =  ganancias  de  linea  para  el  cliente,  % 


-  0.1081  \n(Pe/P) 

(-6.42) 

=  0.98 


*Consulte  "Energy  Prices  and  Capital  Formation:  1972-1977",  Review,  Banco  de  la  Reserva  Federal  de 
St.  Louis,  vol.  61,  num.  5,  mayo  de  1979,  p.  4. 

*  El  autor  agradece  a  Daniel  J.  Reardon  por  recopilary  procesar  los  datos. 


Capftulo  8  Analisis  de  regresion  multiple:  el problema  de  la  inferencia  269 


TABLA  8.10  Variables  de  regresion 


Ano 

X2l 

*3, 

x4, 

*5, 

*6, 

Y, 

PIB 

construccion 

desempleo 

tasa 

ganancias 

ventas 

de  nuevas 

% 

preferencial, 

linea  cliente. 

anuales 

viviendas 

rezago 

6  meses 

% 

(MPF) 

1968 

1  051.8 

1  503.6 

3.6 

5.8 

5.9 

5  873 

1969 

1  078.8 

1  486.7 

3.5 

6.7 

4.5 

7  852 

1970 

1  075.3 

1  434.8 

5.0 

8.4 

4.2 

8  189 

1971 

1  107.5 

2  035.6 

6.0 

6.2 

4.2 

7  497 

1972 

1  171.1 

2  360.8 

5.6 

5.4 

4.9 

8  534 

1973 

1  235.0 

2  043.9 

4.9 

5.9 

5.0 

8  688 

1974 

1  217.8 

1  331.9 

5.6 

9.4 

4.1 

7  270 

1975 

1  202.3 

1  160.0 

8.5 

9.4 

3.4 

5  020 

1976 

1  271.0 

1  535.0 

7.7 

7.2 

4.2 

6  035 

1977 

1  332.7 

1  961.8 

7.0 

6.6 

4.5 

7  425 

1978 

1  399.2 

2  009.3 

6.0 

7.6 

3.9 

9  400 

1979 

1  431.6 

1  721.9 

6.0 

10.6 

4.4 

9  350 

1980 

1  480.7 

1  298.0 

7.2 

14.9 

3.9 

6  540 

1981 

1  510.3 

1  100.0 

7.6 

16.6 

3.1 

7  675 

1982 

1  492.2 

1  039.0 

9.2 

17.5 

0.6 

7419 

1983 

1  535.4 

1  200.0 

8.8 

16.0 

1.5 

7  923 

Considere  el  siguiente  modelo: 

Yi  —  Pi  +  P2X2t  +  +  fi4X4t  +  P5X5,  +  P(,X(,t  +  ut 

a)  Estime  la  regresion  anterior. 

b )  /.Cuales  son  los  signos  esperados  para  los  coeficientes  de  este  modelo? 

c)  /.Corrcspondcn  los  resultados  empiricos  a  las  expectativas  a  priori ? 

d)  (',Son  los  coeficientes  de  regresion  parcial  estimados  estadisticamente  significativos 
considerados  en  forma  individual  en  el  nivel  de  5%  de  significance? 

e)  Suponga  que  efectua  la  regresion  de  Y  sobre  X2,  X2  y  X4  solamente  y  luego  decide 
agregar  las  variables  X5  y  X6.  pComo  averiguara  si  se  justifica  agregar  las  variables  X5 
y  <',Que  prueba  utiliza?  Muestre  los  calculos  necesarios. 

8.27.  Marc  Nerlove  estimo  la  siguiente  funcion  de  costo  para  la  generation  de  electricidad:* 

Y  —  AX&  P01'  P012  Pa3u  (1) 

donde  Y  =  costo  total  de  produccion 

X  =  produccion  en  horas  kilowatt 
P\  =  precio  del  insumo  trabajo 
P 2  =  precio  del  insumo  capital 
P 3  =  precio  del  combustible 
u  =  termino  de  perturbacion 


*  Marc  Nerlove,  "Returns  to  Scale  in  Electric  Supply",  en  Carl  Christ  (ed.),  Measurement  in  Economics,  Stan¬ 
ford  University  Press,  Palo  Alto,  California,  1963.  La  notacion  cambio. 
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En  teoria,  se  espera  que  la  suma  de  las  elasticidades  del  precio  sea  igual  a  la  unidad,  es 
decir,  ( a\  +  «2  +  Q!3)  =  1 .  Pero  al  imponer  esta  restriction,  la  funcion  de  costos  anterior  se 
escribe  como 


(17*0  =  ^(P1/P3)“1(*2/*3)“2m  (2) 

En  otras  palabras,  (1)  es  una  funcion  de  costo  no  restringida  y  (2)  es  una  funcion  de  costo 
restringida. 

Con  base  en  una  muestra  de  29  empresas  de  tamano  mediano  y  despues  de  realizar  la 
transformation  logaritmica,  Nerlove  obtuvo  los  siguientes  resultados  de  la  regresion: 

In’?,  =  -4.93  +  0.94  ln^  +  0.31  In Px 

ee  =  (1.96)  (0.11)  (0.23) 

—0.26  In  7*2  +  0.44  In  P3 
(0.29)  (0.07) 

In 07?,)  =  -6.55  +  0.91  lnX+  0.51  ln(/yP3)  +  0.09  ln(P2/P3) 

ee  =  (0.16)  (0.11)  (0.19)  (0.16)  SCR  =  0.364 

(4) 


(3) 

SCR  =  0.336 


a)  Interprete  las  ecuaciones  (3)  y  (4). 

b)  (',C6mo  averiguaria  si  la  restriction  («i  +  «2  +  «3)  =  1  es  valida?  Muestre  sus  calcu- 
los. 

8.28.  Estimation  del  modelo  de  asignacion  de precios  de  activos  de  capital  (CAPM).  En  la  sec- 
cion  6. 1  consideramos  brevemente  el  conocido  modelo  de  asignacion  de  precios  de  activos 
de  capital  de  la  teoria  moderna  de  portafolios.  En  el  analisis  empirico,  el  CAPM  se  estima 
en  dos  etapas. 

Etapa  1  (Regresion  de  serie  de  tiempo).  Para  cada  uno  de  los  N  titulos  incluidos  en  la 
muestra  efectuamos  la  siguiente  regresion  a  traves  del  tiempo: 

R  it  —  Ol i  +  PiRmt  +  tit  (1) 

donde  Rit  y  R,„,  son  las  tasas  de  rendimiento  del  i-esimo  titulo  y  el  portafolios  del  mercado 
(por  ejemplo,  el  S&P  500)  en  el  ano  t;  Pi,  como  ya  vimos,  es  el  coeficiente  beta  o  coefi- 
ciente  de  volatilidad  del  mercado  del  z-esimo  titulo  y  e,,  son  los  residuos.  En  total  hay  N 
regresiones,  una  para  cada  titulo,  y  se  producen,  por  consiguiente,  N  valores  estimados 
para  pt. 

Etapa  II  (Regresion  transversal).  En  esta  etapa  efectuamos  la  siguiente  regresion  para 
los  A  titulos: 

Ri  =  Vi  +  YlPi  +  ui  (2) 

donde  R ,  es  el  promedio  o  tasa  media  de  rendimiento  para  el  titulo  i,  calculado  sobre  el 
periodo  muestral  cubierto  por  la  etapa  I,  f>,  es  el  coeficiente  beta  estimado  de  la  regresion 
de  la  primera  etapa  y  m,  es  el  termino  residual. 

Al  comparar  la  regresion  (2)  de  la  segunda  etapa  con  el  CAPM,  ecuacion  (6. 1 .2),  escrita 
como 


ER,  =rf  +  Pi(ERm  -  rf)  (3) 

donde  rp  es  la  tasa  de  rendimiento  libre  de  riesgo,  vemos  que  y\  es  una  estimation  de  rf 
y  es  Y2  una  estimation  de  (ER„,  —  r/),  la  prima  del  riesgo  del  mercado. 
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Asi,  en  la  prueba  empirica  de  CAPM,  R ,  y  yd,  se  utilizan  como  estimadores  de  ER,  y  (1, 
respectivamente.  Ahora,  si  se  mantiene  CAPM,  estadisticamente, 


Yi  =  rf 

y2  —  Rm  —  rp,  el  estimador  de  (ER„,  —  rp) 


Considere  ahora  otro  modelo: 


Ri  =  ?i  +  YiPi  +  h  4  +  u‘  (4) 

donde  s2  es  la  varianza  residual  del  /-esimo  titulo  de  la  regresion  de  la  primera  etapa.  En- 
tonces,  si  CAPM  es  valido,  no  debe  ser  significativamente  diferente  de  cero. 

Para  probar  el  CAPM,  Levy  efectuo  las  regresiones  (2)  y  (4)  sobre  una  muestra  de  101 
acciones  durante  el  periodo  1948-1968  y  obtuvo  los  siguientes  resultados:* 

Ri  =  0.109  +  0.037/3, 

(0.009)  (0.008)  (2)' 

t  =  (12.0)  (5.1)  R2  —  0.21 

Ri  —  0.106  +  0.0024  fr  +  0.2014 

(0.008)  (0.007)  (0.038)  (4)' 

t  —  (13.2)  (3.3)  (5.3)  R2  —  0.39 

a)  /.Apoyan  estos  resultados  el  CAPM? 

b)  pSe  justifica  agregar  la  variable  s2  al  modelo?  /.Como  sabe? 

c)  Si  el  CAPM  se  mantiene,  y\  en  (2)'  debe  aproximar  el  valor  promedio  de  la  tasa  libre 
de  riesgo  vp  El  valor  estimado  es  10.9%.  /Parece  una  estimacion  razonable  de  la  tasa  de 
rendimiento  libre  de  riesgo  durante  el  periodo  de  observacion,  1948-1968?  (Se  pue- 
de  considerar  la  tasa  de  rendimiento  de  los  bonos  del  Tesoro  o  de  un  activo  libre  de 
riesgo  relativamente  parecido.) 

d)  Si  el  CAPM  se  mantiene,  la  prima  de  riesgo  del  mercado  ( R —  rp)  de  (2)'  es  cerca  de 
3.7%.  Si  se  supone  que  /ye s  10.9%,  esto  implica  que  Rm  para  el  periodo  de  la  muestra 
fue  aproximadamente  14.6%.  /.Parece  una  estimacion  razonable? 

e)  (,Que  puede  decir  sobre  el  CAPM  en  general? 

8.29.  Consulte  el  ejercicio  7.2  lc.  Ahora  que  ya  cuenta  con  las  herramientas  necesarias,  /.cual(es) 
prueba(s)  utilizaria(n)  para  elegir  entre  los  dos  modelos?  Muestre  los  calculos  necesarios. 
Observe  que  las  variables  dependientes  en  los  dos  modelos  son  distintas. 

8.30.  Consulte  el  ejemplo  8.3.  Utilice  la  prueba  t,  como  se  muestra  en  (8.6.4),  para  averiguar 
si  hubo  rendimientos  constantes  a  escala  en  la  economia  mexicana  para  el  periodo  de 
e  studio. 

8.31.  Vuelva  al  ejemplo  de  la  mortalidad  infantil  que  estudiamos  en  diversas  ocasiones.  La  re¬ 
gresion  (7.6.2)  se  llevo  a  cabo  para  la  mortalidad  infantil  (MI)  sobre  el  PIB  per  capita 
(P1BPC)  y  la  tasa  de  alfabetizacion  de  las  mujeres  (TAM).  Ahora  extienda  este  modelo 


*  H.  Levy,  "Equilibrium  in  an  Imperfect  Market:  A  Constraint  on  the  Number  of  Securities  in  the  Portfolio", 
American  Economic  Review,  vol.  68,  num.  4,  septiembre  de  1978,  pp.  643-658. 
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para  incluir  la  tasa  de  fecundidad  total  (TFT).  Los  datos  de  todas  estas  variables  ya  se 
dieron  en  la  tabla  6.4.  Reproducimos  la  regresion  (7.6.2)  y  presentamos  los  resultados  del 
modelo  de  regresion  extendido: 

1.  MI,  —  263.6416  -  0.0056  PIBPC,  -  2.2316  TAM, 

ee=  (11.5932)  (0.0019)  (0.2099)  R2  —  0.7077 

2.  MIi  =  168.3067  -  0.0055  PIBPC,  -  1.7680  TAM,  +  12.8686  TFT, 

ee  =  (32.8916)  (0.0018)  (0.2480)  (?) 

R2  =  0.7474 

a)  ^Como  interpretaria  el  coeficiente  de  TFT?  A  priori,  /.espcraria  una  relacion  positiva  o 
negativa  entre  MI  y  TFT?  Justifique  su  respuesta. 

b )  ,',Los  valores  de  los  coeficientes  de  PIBPC  y  TFT  cambiaron  entre  ambas  ecuaciones? 
Si  asi  fue,  ,',cual(cs)  seria(n)  la(s)  razon(razones)  de  ese  cambio?  ,',La  diferencia  que  se 
observa  es  estadisticamente  significativa?  ,',Quc  prueba  utilizaria  y  por  que? 

c)  ,',C6mo  elegiria  entre  los  modelos  1  y  2?  (',Quc  prueba  estadistica  emplearia  para  res¬ 
ponder  esta  pregunta?  Muestre  los  calculos  necesarios. 

d)  No  se  ha  proporcionado  el  error  estandar  del  coeficiente  de  TFT.  ,'iPucdc  calcularlo? 
( Sugerencia :  Recuerde  la  relacion  entre  las  distribuciones  t  y  F.) 

8.32.  Consulte  el  ejercicio  1.7,  en  el  que  se  dieron  datos  sobre  los  impactos  publicitarios  que  se 
recuerdan  y  los  gastos  publicitarios  para  una  muestra  de  21  empresas.  En  el  ejercicio  5.1 1 
se  pidio  graficar  esos  datos  y  elaborar  un  modelo  apropiado  sobre  la  relacion  entre  dichas 
variables.  Con  Y  como  los  impactos  publicitarios  recordados  y  X  el  gasto  publicitario,  se 
obtuvieron  las  siguientes  regresiones: 

Modelo  I:  7,  =22.163  +  0.363 1A) 

ee=  (7.089)  (0.0971)  r2  =  0.424 

Modelo  II:  %  =  7.059  +  1.0847X,  -  0.0040A? 

ee  =  (9.986)  (0.3699)  (0.0019)  R2  —  0.53 

a)  Interprete  ambos  modelos 

b )  <^Cual  es  el  rnejor  modelo  y  por  que? 

c)  /.Que  prueba(s)  estadistica(s)  utilizaria  para  elegir  entre  los  dos  modelos? 

d)  /.Hay  “rendimientos  decrecientes”  del  gasto  publicitario?,  es  decir, despues  de  un  de- 
terminado  nivel  de  gasto  publicitario  (el  nivel  de  saturation)  ya  no  conviene  gastar  en 
publicidad?  (',Puede  descubrir  cual  seria  ese  nivel  de  gasto?  Muestre  los  calculos  nece¬ 
sarios. 

8.33.  En  la  regresion  (7.9.4)  presentamos  los  resultados  de  la  funcion  de  produccion  Cobb-Dou- 
glas  ajustados  al  sector  manufacturero  de  los  50  estados  de  Estados  Unidos  y  Washington, 
D.C.,  para  2005.  Con  base  en  esa  regresion  determine  si  hay  rendimientos  constantes  a 
escala  en  ese  sector,  mediante: 

a)  La  prueba  t  dada  en  (8.6.4).  La  covarianza  entre  los  dos  estimadores  de  pendiente  es 
-0.03843. 

b)  La  prueba  F  dada  en  (8.6.9). 

c)  ^Existe  alguna  diferencia  en  los  resultados  de  estas  dos  pruebas?  ,',Cual  es  su  conclu¬ 
sion  respecto  de  los  rendimientos  a  escala  en  el  sector  manufacturero  de  los  50  estados 
y  Washington,  D.C.,  en  el  periodo  de  muestra? 
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8.34.  Reconsidere  la  regresion  ahorro-ingreso  de  la  seccion  8.7.  Suponga  que  dividimos  la 
muestra  en  dos  periodos:  1970-1982  y  1983-1995.  Mediante  la  prueba  de  Chow  determine 
si  existe  un  cambio  estructural  en  la  regresion  ahorro-ingreso  para  los  dos  periodos.  A1 
comparar  los  resultados  con  los  obtenidos  en  la  seccion  8.7,  /.que  conclusiones  generales 
deduce  respecto  de  la  sensibilidad  de  la  prueba  de  Chow  a  la  eleccion  del  punto  critico  que 
divide  la  muestra  en  dos  (o  mas)  periodos? 

8.35.  Consulte  el  ejercicio  7.24  y  los  datos  de  la  tabla  7.12  relativos  a  cuatro  variables  economi¬ 
cas  en  Estados  Unidos  durante  el  periodo  1947-2000. 

a)  Con  base  en  la  regresion  del  gasto  de  consumo  sobre  el  ingreso  real,  la  riqueza  real 
y  la  tasa  de  interes  real,  averigiie  que  coeficientes  de  regresion  son  estadisticamente 
significativos,  en  lo  individual,  en  el  nivel  de  significancia  de  5%.  /Los  signos  de  los 
coeficientes  estimados  concuerdan  con  la  teoria  economica? 

b)  Con  base  en  los  resultados  de  a),  /.como  estimaria  las  elasticidades  del  ingreso,  riqueza 
y  tasa  de  interes?  /Que  informacion  adicional,  si  acaso,  necesita  para  calcular  las  elas¬ 
ticidades? 

c)  (.Como  probaria  la  hipotesis  de  que  las  elasticidades  del  ingreso  y  la  riqueza  son  igua- 
les?  Muestre  los  calculos  necesarios. 

d)  Suponga  que  en  lugar  de  la  funcion  lineal  de  consumo  que  estimo  en  a),  hace  la  re¬ 
gresion  del  logaritmo  del  gasto  de  consumo  sobre  los  logaritmos  del  ingreso  y  de  la 
riqueza  y  la  tasa  de  interes.  Obtenga  los  resultados  de  la  regresion.  /.Como  interpretaria 
estos  resultados? 

e)  /Cualcs  son  las  elasticidades  del  ingreso  y  la  riqueza  estimadas  en  d )?  /.Como  inter- 
preta  el  coeficiente  de  la  tasa  de  interes  estimado  en  d)7 

f)  En  la  regresion  realizada  en  d),  /pudo  haber  usado  el  logaritmo  de  la  tasa  de  interes  en 
lugar  de  la  tasa  de  interes?  /For  que? 

g)  /.Como  compara  las  elasticidades  estimadas  en  b)  y  en  d)l 

h)  Entre  los  modelos  de  regresion  estimados  en  a)  y  d),  /.cual  preferiria?  /Por  que? 

i)  Suponga  que  en  lugar  de  estimar  el  modelo  dado  en  d),  solo  hace  la  regresion  del  lo¬ 
garitmo  del  gasto  de  consumo  sobre  el  logaritmo  del  ingreso.  /.Como  decidiria  si  vale 
la  pena  agregar  el  logaritmo  de  la  riqueza  al  modelo?  /.Y  como  decidiria  si  vale  la  pena 
agregar  tanto  el  logaritmo  de  la  riqueza  como  la  tasa  de  interes  al  modelo?  Muestre  los 
calculos  necesarios. 

8.36.  Consulte  la  seccion  8.8  y  los  datos  de  la  tabla  8.9  relativos  al  ingreso  personal  disponible  y 
el  ahorro  personal  durante  el  periodo  1970-1995.  En  esa  seccion  se  introdujo  la  prueba  de 
Chow  para  ver  si  ocurria  un  cambio  estructural  dentro  de  los  datos  entre  dos  periodos.  La 
tabla  8.1 1  incluye  datos  actualizados  con  los  valores  de  1970-2005.  Segun  el  National  Bu¬ 
reau  of  Economic  Research,  el  ciclo  de  contraccion  del  sector  empresarial  estadounidense 
mas  reciente  termino  a  finales  de  2001.  Divida  los  datos  en  tres  secciones:  1)  1970-1981, 
2)  1982-2001  y  3)  2002-2005. 

a)  Estime  tanto  el  modelo  correspondiente  al  conjunto  completo  de  datos  (anos  1970- 
2005)  como  el  correspondiente  a  la  tercera  seccion  (a  partir  de  2002).  Use  la  prueba 
de  Chow  para  determinar  si  existe  una  ruptura  significativa  entre  el  tercer  periodo  y  el 
conjunto  completo  de  datos. 

b)  Con  los  nuevos  datos  de  la  tabla  8.1 1  determine  si  todavia  existe  diferencia  significa¬ 
tiva  entre  el  primer  grupo  de  anos  (1970-1981)  y  el  conjunto  completo  de  datos  ahora 
que  dispone  de  mas  observaciones. 

c)  Ejecute  la  prueba  de  Chow  con  el  periodo  intermedio  (1982-2001)  en  relacion  con  el 
conjunto  completo  de  datos  para  ver  si  los  datos  de  este  periodo  muestran  diferencias 
significativas  respecto  del  resto  de  los  datos. 
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TAB  LA  8.11 

Ano 

Ahorro 

Inareso 

Ahorro  e  mgreso  per- 

sonal  disponible  (miles 

1970 

69.5 

735.7 

de  millones  de  dolares), 

1971 

80.6 

801.8 

Estados  Unidos, 

1972 

77.2 

869.1 

1970-2005  (miles  de  mi- 

1973 

102.7 

978.3 

Hones  de  dolares,  salvo 

1974 

113.6 

1  071.6 

que  se  indique  otra  cosa; 

1975 

125.6 

1  187.4 

datos  trimestrales  con 

1976 

122.3 

1  302.5 

tasas  anuales  ajustadas 

1977 

125.3 

1  435.7 

por  estacionalidad) 

1978 

142.5 

1  608.3 

1979 

159.1 

1  793.5 

Fuente:  Department  of 

1980 

201.4 

2  009.0 

Commerce,  Bureau  of  Economic 

1981 

244.3 

2  246.1 

Analysis. 

1982 

270.8 

2  421.2 

1983 

233.6 

2  608.4 

1984 

314.8 

2  912.0 

1985 

280.0 

3  109.3 

1986 

268.4 

3  285.1 

1987 

241.4 

3  458.3 

1988 

272.9 

3  748.7 

1989 

287.1 

4  021.7 

1990 

299.4 

4  285.8 

1991 

324.2 

4  464.3 

1992 

366.0 

4  751.4 

1993 

284.0 

4  911.9 

1994 

249.5 

5  151.8 

1995 

250.9 

5  408.2 

1996 

228.4 

5  688.5 

1997 

218.3 

5  988.8 

1998 

276.8 

6  395.9 

1999 

158.6 

6  695.0 

2000 

168.5 

7  194.0 

2001 

132.3 

7  486.8 

2002 

184.7 

7  830.1 

2003 

174.9 

8  162.5 

2004 

174.3 

8  681.6 

2005 

34.8 

9  036.1 

*Apendice  8A2 


Prueba  de  la  razon  de  verosimilitud  (RV) 

La  prueba  de  la  RV  se  basa  en  el  principio  de  maxima  verosimilitud  (MV)  estudiado  en  el  apendice  4A,  en 
el  cual  se  muestra  la  forma  de  obtener  los  estimadores  de  MV  del  modelo  de  regresion  con  dos  variables. 
Ese  principio  puede  extenderse  directamente  al  modelo  de  regresion  multiple.  Conforme  al  supuesto  de  que 
las  perturbaciones  ut  estan  normalmente  distribuidas,  se  muestra  que  para  el  modelo  de  regresion  con  dos 
variables  los  estimadores  de  MCO  y  MV  de  los  coeficientes  de  regresion  son  identicos,  pero  las  varianzas 


Opcional. 
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del  error  estimado  son  diferentes.  El  estimador  de  MCO  de  cr2  es  /{n  —  2),  pero  el  estimador  MV  es 
^2u2/n,  el  primero  insesgado  y  el  ultimo  sesgado,  aunque  en  muestras  grandes  el  sesgo  tiende  a  desapa- 
recer. 

Sucede  lo  mismo  en  la  regresion  multiple.  Para  ilustrar  lo  anterior  considere  el  modelo  de  regresion  de 
tres  variables: 


Y,  —  +  PiXji  +  PiXn  +  Uj  (1) 

Correspondiente  a  la  ecuacion  (5)  del  apendice  4A,  el  logaritmo  de  la  funcion  de  verosimilitud  para  el 
modelo  (1)  se  expresa  asl: 

In FV  =  ~  ln(a2)  -  ~  ln(2rr)  -  ^  £(7,  -  Pi  -  p2X2i  -  PiX^)2  (2) 

Como  se  muestra  en  el  apendice  4A,  al  diferenciar  esta  funcion  respecto  de  Pi,  p2,  Pi  y  a2,  igualar  la  expre- 
sion  resultante  a  cero  y  resolver,  se  obtienen  los  estimadores  de  MV  de  tales  estimadores.  Los  estimadores 
de  MV  de  Pi,  p2  y  Pi  seran  identicos  a  los  estimadores  de  MCO,  que  ya  se  dieron  en  las  ecuaciones  (7.4.6) 
a  (7.4.8),  pero  la  varianza  del  error  sera  diferente,  pues  la  suma  de  cuadrados  residual  (SCR)  estara  dividida 
por  n,  en  vez  de  (n  —  3),  como  en  el  caso  de  MCO. 

Ahora,  supongamos  que  la  hipotesis  nula  H0  es  que  pi,  el  coeficiente  de  X2,  es  cero.  En  este  caso,  el  log 
FV  dado  en  (2)  se  convierte  en 


In  FV  =  —  ”  In  (a2)  -  "  ln(2w)  -  ^  -  ft  -  & x- 2^  (3) 

La  ecuacion  (3)  se  conoce  como  el  logaritmo  de  la  funcion  de  verosimilitud  restringida  (LFVR)  por  esti- 
marse  con  la  restriccion  de  que  a  priori  Pi  es  cero,  mientras  que  la  ecuacion  (2)  se  conoce  como  el  logaritmo 
de  la  funcion  de  verosimilitud  no  restringida  (LFVNR),  porque  no  se  impusieron  restricciones  a  priori 
sobre  los  parametros.  Para  probar  la  validez  de  la  restriccion  a  priori  de  que  Pi  es  cero,  la  prueba  de  la  RV 
produce  el  siguiente  estadlstico  de  prueba: 

k  =  2(LFVNR  -  LFVR)  (4)* 

donde  LFVNR  y  LFVR  son  el  logaritmo  de  la  funcion  de  verosimilitud  no  restringida  [ecuacion  (2)]  y  el 
logaritmo  de  la  funcion  de  verosimilitud  restringida  [ecuacion  (3)],  respectivamente.  Si  el  tamano  de  la 
muestra  es  grande,  puede  demostrarse  que  el  estadlstico  de  prueba  k  dado  en  (4)  sigue  una  distribucion  ji 
cuadrada  (x2)  con  un  numero  de  gl  igual  al  nurnero  de  restricciones  impuestas  segun  la  hipotesis  nula,  1  en 
el  presente  caso. 

La  idea  basica  de  la  prueba  de  la  RV  es  simple:  si  la(s)  restriccion(restricciones)  a  priori  e  (son)  valida(s), 
los  (log)  FV  restringida  y  no  restringida  no  deben  ser  diferentes,  en  cuyo  caso  k  en  (4)  sera  cero.  Pero  si  ese 
no  es  el  caso,  las  dos  FV  divergiran.  Como  cuando  la  muestra  es  grande  k  sigue  una  distribucion  ji  cuadrada, 
es  posible  averiguar  si  la  divergencia  es  estadlsticamente  significativa,  por  ejemplo,  en  un  nivel  de  signifi- 
cancia  de  1  o  5%.  O  de  lo  contrario,  podemos  encontrar  el  valor  p  de  la  k  estimada. 

Ilustremos  la  prueba  de  la  RV  con  el  ejemplo  de  mortalidad  infantil.  Si  se  hace  la  regresion  de  la  morta- 
lidad  infantil  (MI)  sobre  el  PIB  per  capita  (PIBPC)  y  la  tasa  de  alfabetizacion  de  las  mujeres  (TAM),  como 
en  (8.1.4),  obtenemos  una  LFVNR  de  —328.1012,  pero  si  solo  hacemos  la  regresion  de  MI  sobre  PIBPC, 
obtenemos  una  LFVR  de  —361.6396.  En  valor  absoluto  (es  decir,  sin  considerar  los  signos),  el  primero  es 
menor  que  el  segundo,  lo  cual  tiene  sentido,  pues  tenemos  una  variable  adicional  en  el  primer  modelo. 

La  cuestion  ahora  es  si  vale  la  pena  anadir  la  variable  TAM.  Si  no  es  asi,  los  logaritmos  de  FV  restrin¬ 
gida  y  FV  no  restringida  no  diferiran  mucho,  pero,  en  caso  contrario,  los  logaritmos  de  las  FV  seran  muy 
distintos.  Para  apreciar  si  esta  diferencia  es  estadlsticamente  significativa,  utilizaremos  la  prueba  de  la  RV 
dada  en  (4),  lo  cual  origina: 


k  =  2[ — 328. 1012  -  (-361.6396)]  =  67.0768 


Esta  expresion  tambien  se  expresa  como  — 2(LFVR  —  LFVNR)  o  —2  ln(FVR/FVNR). 
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Asintoticamente,  su  distribution  es  igual  a  la  ji  cuadrada  con  1  gl  (porque  solo  se  tiene  una  restriction  im- 
puesta  cuando  se  omite  la  variable  TAM  del  modulo  completo).  El  valor  p  de  obtener  tal  valor  ji  cuadrada 
para  1  gl  es  casi  cero,  lo  cual  lleva  a  la  conclusion  de  que  la  variable  TAM  no  debe  excluirse  del  modelo.  En 
otras  palabras,  la  regresion  restringida  en  el  presente  ejemplo  no  es  valida. 

Si  SCRR  y  SCRNR  representan  las  sumas  de  cuadrados  residuales  restringida  y  no  restringida,  la  ecua- 
cion  (4)  tambien  se  expresa  como: 


-2  In  A  =  w(ln  SCRR  -  In  SCRNR) 


(5) 


que  esta  distribuida  como  /2  con  r  grados  de  libertad,  donde  r  es  el  numero  de  restricciones  impuestas  al 
modelo  (es  decir,  el  numero  de  coeficientes  r  omitidos  del  modelo  original). 

Aunque  no  es  posible  estudiar  en  detalle  las  pruebas  de  Wald  y  MV,  estas  pruebas  pueden  aplicarse  como 
sigue: 


Estadistico  de  Wald  (W)  = 


(n  -  L)(SCRR  -  SCRNR) 
SCRNR 


Xr 


Estadistico  del  multiplicador  de  Lagrange  (ML)  = 


(n  —  k  +  r)(SCRR  -  SCRNR) 
SCRR 


(6) 

(7) 


donde  k  es  el  numero  de  regresoras  en  el  modelo  sin  restricciones  y  r  es  el  numero  de  restricciones. 

Como  puede  observar  en  las  ecuaciones  anteriores,  las  tres  pruebas  son  asintoticamente  (es  decir,  en 
muestras  grandes)  equivalentes:  producen  respuestas  similares.  Sin  embargo,  las  respuestas  pueden  diferir 
en  muestras  pequefias.  Existe  una  relation  interesante  entre  estos  estadisticos  en  que  se  puede  demostrar 
que: 


W  >  RV  >  ML 

Por  tanto,  en  muestras  pequefias,  se  puede  rechazar  una  hipotesis  con  el  estadistico  de  Wald,  pero  no  con  el 
estadistico  del  ML.* 

Como  se  sefialo  en  el  texto,  para  casi  todos  los  propositos  de  este  estudio  bastan  las  pruebas  t  y  F.  Pero 
las  tres  pruebas  analizadas  antes  tienen  aplicabilidad  general  en  el  sentido  de  probar  hipotesis  no  lineales  en 
modelos  lineales,  o  probar  restricciones  sobre  matrices  de  varianza-covarianza.  Tambien  pueden  aplicarse 
en  situaciones  donde  no  se  sostiene  el  supuesto  de  que  los  errores  estan  distribuidos  normalmente. 

Dcbido  a  la  complejidad  matematica  de  las  pruebas  de  Wald  y  ML,  no  profundizaremos  mas  aqui.  Pero, 
como  se  anoto,  asintoticamente  las  pruebas  RV,  Wald  y  ML  producen  respuestas  identicas;  la  election  entre 
una  u  otra  prueba  depende  de  la  conveniencia  computacional. 


*  Para  una  explicacion,  vease  G.S.  Maddala,  Introduction  to  Econometrics,  3a.  ed.,  John  Wiley  &  Sons,  Nueva 
York,  2001,  p.  177. 
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En  el  capitulo  1  analizamos  brevemente  los  cuatro  tipos  de  variables  que  por  lo  general  se  en- 
cuentran  en  el  analisis  emplrico:  escala  de  razon,  escala  de  intervalo,  escala  ordinal  y  escala 
nominal.  Los  tipos  de  variables  de  los  capitulos  anteriores  fueron  en  esencia  en  escala  de  razon. 
Pero  esto  no  debe  dar  la  impresion  de  que  los  modelos  de  regresion  solo  tratan  con  variables  en 
escala  de  razon.  Los  modelos  de  regresion  tambien  trabajan  con  los  demas  tipos  de  variables  que 
acabamos  de  mencionar.  En  este  capitulo  consideraremos  modelos  que  tal  vez  no  solo  tengan  va¬ 
riables  en  escala  de  razon,  sino  tambien  variables  en  escala  nominal.  Estas  variables  tambien  se 
conocen  como  variables  indicadoras,  variables  categoricas,  variables  cualitativas  o  variables 
dicotomas.1 


9.1  Naturaleza  de  las  variables  dicotomas 


En  el  analisis  de  regresion,  la  variable  dependiente  o  regresada  a  menudo  acusa  influencia  no  solo 
de  variables  en  escala  de  razon  (por  ejemplo:  ingreso,  produccion,  precios,  costos  y  estatura), 
sino  tambien  de  variables  cualitativas  por  naturaleza,  o  de  escala  nominal  (como  sexo,  raza, 
color,  religion,  nacionalidad,  region  geografica,  cambios  politicos  y  afiliacion  partidista).  Por 
ejemplo,  con  los  demas  factores  constantes,  se  ha  visto  que  las  trabajadoras  ganan  menos  que  sus 
pares  masculinos,  y  que  las  personas  de  color  ganan  menos  que  las  blancas.2  Este  patron  puede 
resultar  de  la  discriminacion  sexual  o  racial,  pero  cualquiera  que  sea  la  razon,  las  variables  cua¬ 
litativas,  como  sexo  y  raza,  si  influyen  en  la  variable  dependiente  y  es  claro  que  deben  incluirse 
en  las  explicativas,  o  regresoras. 

Como  tales  variables  suelen  indicar  la  presencia  o  ausencia  de  una  “cualidad”  o  atributo,  como 
femenino  o  masculino,  negro  o  bianco,  catolico  o  no  catolico,  democrata  o  republicano,  son  va¬ 
riables  en  escala  nominal  esencialmente.  Una  manera  de  “cuantificar”  tales  atributos  es  mediante 
variables  artificiales  que  toman  los  valores  0  o  1,  donde  1  indica  la  presencia  (o  posesion)  de  ese 
atributo  y  0  su  ausencia.  Por  ejemplo,  1  puede  indicar  que  una  persona  es  de  sexo  femenino  y 
0  que  es  de  sexo  masculino;  o  1  puede  indicar  que  una  persona  se  graduo  en  la  universidad  y  0 
que  no  lo  ha  hecho,  y  asi  en  cada  caso.  Las  variables  que  adquieren  tales  valores  0  y  1  se  llaman 


1  Analizaremos  las  variables  en  escala  ordinal  en  el  capitulo  15. 

2  Hay  una  revision  de  la  demostracion  de  este  tema  en  Bruce  E.  Kaufman  y  Julie  L.  Hotchkiss,  The  Economics 
of  Labor  Market,  5a.  ed.,  Dryden  Press,  Nueva  York,  2000. 


278  Parte  Uno  Modelos  de  regresion  uniecuacionales 


variables  dicotomas.3  Tales  variables  son,  por  tanto,  en  esencia,  un  recurso  para  clasificar  datos 
en  categorias  mutuamente  excluyentes,  como  masculino  ofemenino. 

Las  variables  dicotomas  pueden  utilizarse  en  los  modelos  de  regresion  en  forma  tan  facil 
como  las  variables  cuantitativas.  De  hecho,  un  modelo  de  regresion  puede  contener  variables  ex- 
plicativas  exclusivamente  dicotomas  o  cualitativas,  por  naturaleza.  Tales  modelos  se  denominan 
modelos  de  analisis  de  varianza  (ANOVA).4 


9.2  Modelos  ANOVA 


Para  ilustrar  los  modelos  ANOVA,  considere  el  siguiente  ejemplo. 


EJEMPLO  9.1 

Salarios  de  maes- 
tros  de  escuelas 
piiblicas  por  region 
geografica 


La  tabla  9.1  proporciona  datos  sobre  salarios  (en  dolares)  de  los  maestros  de  escuelas  publicas 
en  50  estados  y  el  Distrito  de  Columbia  para  los  arios  2005-2006.  Las  51  areas  se  clasifican  en 
tres  regiones  geograficas:  1)  Noreste  y  Norte-centro  (21  estados  en  total);  2)  Sur  (17  estados 
en  total),  y  3)  Oeste  (1  3  estados  en  total).  Por  el  momenta,  no  se  preocupe  por  el  formato  de  la 
tabla  ni  de  los  demas  datos  suministrados. 

Suponga  que  deseamos  averiguar  si  el  salario  promedio  anual  (SPA)  de  los  maestros  de  es¬ 
cuelas  piiblicas  difiere  en  las  tres  areas  geograficas  de  Estados  Unidos.  Si  tomamos  el  promedio 
aritmetico  simple  de  los  salarios  promedio  de  los  maestros  de  las  tres  regiones,  obtenemos  los 
siguientes  promedios  para  las  tres  regiones:  $49  538.71  (Noreste  y  Norte-centro),  $46  293.59 
(Sur)  y  $48  104.62  (Oeste).  Esos  niimeros  difieren  entre  sf,  pero,  £son  estadisticamente  distin- 
tos?  Existen  varias  tecnicas  estadisticas  para  comparar  dos  o  mas  valores  medios,  lo  cual  por 
lo  general  se  conoce  como  analisis  de  varianza.5  Pero  se  logra  lo  mismo  con  el  analisis  de 
regresion. 

Para  ver  lo  anterior,  considere  el  siguiente  modelo: 

Yi=  Pi  +  PiDu  +  PuDii  +  u,  (9.2.1) 

donde  V)=  salario  (promedio)  de  los  maestros  de  escuelas  piiblicas  en  el  estado  / 

D2/=  1  si  el  estado  se  encuentra  en  el  Noreste  o  Norte-centro 
=  0  para  otra  region  del  pals 
Dn=  1  si  el  estado  es  del  Sur 
=  0  para  otra  region  del  pals 

Observe  que  (9.2.1)  es  como  cualquier  modelo  de  regresion  multiple  que  se  haya  estudiado 
antes,  excepto  que  en  vez  de  regresoras  cuantitativas,  se  tienen  solo  variables  cualitativas  o  di¬ 
cotomas,  las  cuales  toman  el  valor  de  1  si  la  observacion  pertenece  a  una  categorfa  particular,  y 


3  No  es  absolutamente  esencial  que  las  variables  dicotomas  adquieran  los  valores  0  y  1 .  El  par  (0,1)  puede 
transformarse  en  cualquier  otro  par  mediante  una  funcion  lineal  tal  que  Z  =  a  +  bD  (b  0),  donde  ay  b 
son  constantes  y  donde  D  =  1  o  0.  Cuando  D  =  1  se  tiene  Z  =  a  +  b,  y  cuando  D  =  0,  se  tiene  Z  =  a.  Asf, 
el  par  (0,1)  se  convierte  en  (a,  a  +  b).  Por  ejemplo,  si  a  =  1  y  b  =  2,  las  variables  dicotomas  seran  (1,  3). 

Esta  expresion  muestra  que  las  variables  cualitativas  o  dicotomas  no  tienen  una  escala  natural  de  medicidn.  Esto 
se  debe  a  que  se  describen  como  variables  en  escala  nominal. 

4  Los  modelos  ANOVA  se  utilizan  para  evaluar  la  significancia  estadfstica  de  la  relacion  entre  una  regresada 
cuantitativa  y  regresoras  cualitativas  o  dicotomas.  A  menudo  se  emplean  para  comparar  las  diferencias  entre 
los  valores  medios  de  dos  o  mas  grupos  o  categorias  y,  por  tanto,  son  mas  generales  que  la  prueba  t,  con  la 
cual  se  comparan  las  medias  de  solo  dos  grupos  o  categorias. 

5  Para  un  tratamiento  de  las  aplicaciones,  vease  John  Fox,  Applied  Regression  Analysis,  Linear  Models,  and  Re¬ 
lated  Methods,  Sage  Publications,  1997,  cap.  8. 
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TABLA9.1  Salario  promedio  de  maestros  de  escuelas  publicas,  por  estado,  2005-2006 


Salario 

Gasto 

d2 

d3 

Salario 

Gasto 

d2 

d3 

Connecticut 

60  822 

12  436 

1 

0 

Georgia 

49  905 

8  534 

0 

1 

Illinois 

58  246 

9  275 

1 

0 

Kentucky 

43  646 

8  300 

0 

1 

Indiana 

47  831 

8  935 

1 

0 

Louisiana 

42  816 

8  519 

0 

1 

Iowa 

43  130 

7  807 

1 

0 

Maryland 

56  927 

9  771 

0 

1 

Kansas 

43  334 

8  373 

1 

0 

Mississippi 

40  182 

7  215 

0 

1 

Maine 

41  596 

11  285 

1 

0 

North  Carolina 

46  410 

7  675 

0 

1 

Massachusetts 

58  624 

12  596 

1 

0 

Oklahoma 

42  379 

6  944 

0 

1 

Michigan 

54  895 

9  880 

1 

0 

South  Carolina 

44  133 

8  377 

0 

1 

Minnesota 

49  634 

9  675 

1 

0 

Tennessee 

43  816 

6  979 

0 

1 

Missouri 

41  839 

7  840 

1 

0 

Texas 

44  897 

7  547 

0 

1 

Nebraska 

42  044 

7  900 

1 

0 

Virginia 

44  727 

9  275 

0 

1 

New  Hampshire 

46  527 

10  206 

1 

0 

West  Virginia 

40  531 

9  886 

0 

1 

Nueva  Jersey 

59  920 

13  781 

1 

0 

Alaska 

54  658 

10  171 

0 

0 

Nueva  York 

58  537 

13  551 

1 

0 

Arizona 

45  941 

5  585 

0 

0 

Dakota  del  Norte 

38  822 

7  807 

1 

0 

California 

63  640 

8  486 

0 

0 

Ohio 

51  937 

10  034 

1 

0 

Colorado 

45  833 

8  861 

0 

0 

Pennsylvania 

54  970 

10  711 

1 

0 

Hawaii 

51  922 

9  879 

0 

0 

Rhode  Island 

55  956 

11  089 

1 

0 

Idaho 

42  798 

7  042 

0 

0 

Dakota  del  Sur 

35  378 

7  911 

1 

0 

Montana 

41  225 

8  361 

0 

0 

Vermont 

48  370 

12  475 

1 

0 

Nevada 

45  342 

6  755 

0 

0 

Wisconsin 

47  901 

9  965 

1 

0 

New  Mexico 

42  780 

8  622 

0 

0 

Alabama 

43  389 

7  706 

0 

1 

Oregon 

50  911 

8  649 

0 

0 

Arkansas 

44  245 

8  402 

0 

1 

Utah 

40  566 

5  347 

0 

0 

Delaware 

54  680 

12  036 

0 

1 

Washington  D.C. 

47  882 

7  958 

0 

0 

Distrito  de 

59  000 

15  508 

0 

1 

Wyoming 

50  692 

11  596 

0 

0 

Columbia 

Florida 

45  308 

7  762 

0 

1 

Nota:  D2  =  1  para  estados  del  Noreste  y  Norte-centro;  0  para  otra  region. 
Z>3  =  1  para  estados  del  Sur;  0  para  otra  region. 

Fuente:  National  Education  Association  como  se  informo  en  2007. 


0  si  no  pertenece  a  esa  categorfa  o  grupo.  De  aqui  en  adelante,  designaremos  todas  las  variables 
dicotomas  con  la  letra  D.  La  tabla  9.1  muestra  las  variables  dicotomas  asf  definidas. 

^Que  expresa  el  modelo  (9.2.1)?  Si  consideramos  que  el  termino  de  error  satisface  las  suposi- 
ciones  usuales  de  MCO,  al  calcular  la  esperanza  de  (9.2.1)  en  ambos  lados,  obtenemos: 

Salario  medio  de  los  maestros  de  escuelas  publicas  en  la  region  Noreste  y  Norte-centro: 

E(Y,  |  Da  =  1 ,  D3;  =  0 )  =  fr+p2  (9. 2.2) 

Salario  medio  de  los  maestros  de  escuelas  publicas  en  el  Sur: 

E(Y,  |  Da  =  0,  D3;  =  1 )  =  ft  +  ft  (9.2.3) 

Quiza  se  pregunte  como  calcular  el  salario  promedio  de  los  maestros  de  escuelas  publicas  en  el 
Oeste.  Si  sospecha  que  la  respuesta  es  p 3/  esta  en  lo  correcto,  pues: 

El  salario  medio  de  los  maestros  de  escuelas  publicas  en  el  Oeste: 

f(V)  |  Da  =  0,  D3;  =  0)  =  ft  (9.2.4) 

( continua ) 
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EJEMPLO  9.1 

(i continuation ) 


En  otras  palabras,  el  salario  medio  de  los  maestros  de  escuelas  publicas  en  el  Oeste  esta  dado 
por  el  intercepto,  /? i,  en  la  regresion  multiple  (9.2.1 );  ademas,  los  coeficientes  de  la  "pendiente" 
f) 2  y  /S3  indican  la  cantidad  por  la  que  los  salarios  promedio  de  los  maestros  del  Noreste  y  Norte- 
centro,  asi  como  los  del  Sur,  difieren  respecto  de  los  salarios  medios  de  los  profesores  del  Oeste. 
Pero,  icomo  saber  si  estas  diferencias  son  estadisticamente  significativas?  Antes  de  responder, 
veamos  los  resultados  basados  en  la  regresion  (9.2.1).  Con  los  datos  de  la  tabla  9.1  obtenemos 
los  siguientes  resultados: 


Y,  =  48  014.615 
ee  =  (1  857.204) 
f=  (25.853) 
(0.0000) 


+  1  524.099D2; 
(2  363.139) 
(0.645) 
(0.5220)* 


-  1  721 .027 D^i 
(2  467.151) 
(-0.698) 
(0.4888)* 


R2  =  0.0440 


(9.2.5) 


donde  *  indica  los  valores  p. 

Como  muestran  los  resultados  de  esta  regresion,  el  salario  medio  de  los  profesores  del  Oeste 
es  de  casi  $48  015,  el  de  los  maestros  del  Noreste  y  del  Norte-centro  es  mayor  por  cerca  de 
$1  524,  y  respecto  de  los  del  Sur,  es  menor  por  cerca  de  $1  721 .  Los  salarios  medios  reales  en 
las  ultimas  dos  regiones  se  obtienen  con  facilidad  si  sumamos  estos  salarios  diferenciales  al  sa¬ 
lario  medio  de  los  maestros  del  Oeste,  como  se  ve  en  las  ecuaciones  (9.2.3)  y  (9.2.4).  Al  hacer 
esto,  tendremos  que  los  salarios  medios  de  las  dos  ultimas  regiones  son  cercanos  a  $49  539  y 
$46  294. 

Pero,  £como  sabemos  que  estos  salarios  medios  son  estadisticamente  diferentes  del  salario 
medio  de  los  profesores  del  Oeste,  que  es  la  categoria  con  la  que  se  comparan?  Es  muy  facil. 
Todo  lo  que  hay  que  hacer  es  averiguar  si  cada  coeficiente  de  "pendiente"  en  (9.2.5)  es  estadis¬ 
ticamente  significativo.  Como  se  observa  en  esta  regresion,  el  coeficiente  estimado  de  la  pen¬ 
diente  para  la  region  Noreste  y  Norte-centro  no  es  estadisticamente  significativo,  pues  su  valor 
p  es  52%;  tampoco  el  del  $ur  es  estadisticamente  significativo,  pues  el  valor  p  es  mas  o  menos 
de  49%.  En  consecuencia,  la  conclusion  general  es  que,  estadisticamente,  los  salarios  medios  de 
los  profesores  de  escuelas  publicas  del  Oeste,  Noreste  y  Norte-centro,  y  5ur  son  casi  iguales.  La 
situacion  se  ilustra  en  el  diagrama  de  la  figura  9.1 . 

Hay  que  tener  cuidado  al  interpretar  estas  diferencias.  Las  variables  dicotomas  simplemente 
senalan  las  diferencias,  si  existen,  pero  no  indican  las  razones  por  las  que  se  presentan.  Las  di¬ 
ferencias  en  los  niveles  educativos,  los  indices  del  costo  de  vida,  el  sexo  y  la  raza  quiza  ejerzan 
algun  efecto  sobre  las  diferencias  observadas.  Por  tanto,  a  menos  que  se  tomen  en  cuenta  todas 
las  demas  variables  que  puedan  afectar  el  salario  de  un  maestro,  no  se  podran  aclarar  las  causas 
de  las  diferencias. 

Del  analisis  anterior,  resulta  claro  que  lo  unico  que  hay  que  hacer  es  observar  si  los  coeficien¬ 
tes  relacionados  con  las  diferentes  variables  dicotomas  son  estadisticamente  significativos  en 
lo  individual.  Este  ejemplo  tambien  muestra  lo  facil  que  es  incorporar  regresoras  cualitativas,  o 
dicotomas,  a  los  modelos  de  regresion. 


FIGURA  9.1 

Salario  promedio  (en 
dolares)  de  los  maestros 
de  escuelas  publicas  de 
tres  regiones. 


/3j  =  $49  539 


$48  015  (/I,  + /32) 


$46  294  (/3,  +  p3) 


Noreste  y  Oeste  Sur 

Norte-centro 
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Precaucion  con  las  variables  dicotomas 

Aunque  es  facil  anadirlas  a  los  modelos  de  regresion,  las  variables  dicotomas  se  deben  utilizar 
con  cuidado.  En  particular,  considere  los  siguientes  aspectos: 

1.  En  el  ejemplo  9.1,  para  diferenciar  las  tres  regiones  utilizamos  solo  dos  variables  dicoto¬ 
mas,  Z>2  y  />?.  (',Por  que  no  empleamos  tres  variables  dicotomas  para  distinguir  las  tres  regiones? 
Suponga  que  hacemos  precisamente  eso  y  escribimos  el  modelo  (9.2.1)  como: 

Yi  —  ol  +  f$\D\i  +  P2D21  +  foD-sj  +  u,  (9.2.6) 

donde  Du  toma  el  valor  de  1  para  los  estados  del  Oeste  y  0  para  los  de  otras  regiones.  Por  tanto, 
ahora  tenemos  una  variable  dicotoma  para  cada  una  de  las  tres  regiones  geograficas.  Con  los 
datos  de  la  tabla  9.1,  si  fuese  a  hacer  la  regresion  de  (9.2.6),  la  computadora  “se  negaria”  (inten- 
telo).6  ^Por  que?  La  razon  estriba  en  que  cuando  se  definio  (9.2.6),  donde  se  tiene  una  variable 
dicotoma  para  cada  categoria  o  grupo,  asi  como  un  intercepto,  se  presenta  un  caso  de  colineali- 
dad  perfecta;  es  decir,  existe  una  relacion  lineal  exacta  entre  las  variables.  <^Por  que?  Consulte 
la  tabla  9.1.  Imagine  que  ahora  anadimos  la  columna  D\,  que  toma  el  valor  de  1  siempre  que  un 
estado  sea  del  Oeste  y  0  en  cualquier  otro  caso.  Ahora  bien,  si  sumamos  las  tres  columnas  D  ho- 
rizontalmente,  obtendremos  una  columna  con  5 1  numeros  1 .  Pero,  como  el  valor  del  intercepto  a 
es  (implicitamente)  1  para  cada  observation,  habra  una  columna  tambien  con  5 1  numeros  1 .  En 
otras  palabras,  la  suma  de  las  tres  columnas  D  solo  reproducira  la  columna  del  intercepto,  lo  cual 
provoca  colinealidad  perfecta.  En  este  caso  es  imposible  la  estimation  del  modelo  (9.2.6). 

El  mensajes  es:  si  una  variable  cualitativa  tiene  m  categorias,  solo  hay  que  agregar  (m  —  1) 
variables  dicotomas.  En  el  ejemplo  anterior,  como  la  variable  cualitativa  “region”  tiene  tres  cate¬ 
gorias,  se  introducen  solo  dos  variables  dicotomas.  Si  no  se  respeta  esta  regia  se  provocara  lo  que 
se  conoce  como  trampa  de  la  variable  dicotoma;  es  decir,  se  tendra  una  situation  de  perfecta 
colinealidad  o  perfecta  multicolinealidad,  si  hay  mas  de  una  relacion  exacta  entre  las  variables. 
Esta  regia  tambien  vale  si  se  tiene  mas  de  una  variable  cualitativa  en  el  modelo,  sobre  lo  cual  ve- 
remos  un  ejemplo  mas  adelante.  Asi,  se  tiene  que  enunciar  de  nuevo  la  regia  anterior  como:  para 
cada  regresora  cualitativa,  el  niimero  de  variables  dicotomas  introducidas  debe  ser  una 
menos  que  las  categorias  de  esa  variable.  Entonces,  si  en  el  ejemplo  9.1  hubiesemos  contado 
con  information  sobre  el  genero  de  los  profesores,  habriamos  utilizado  una  variable  dicotoma 
adicional  (pero  no  dos)  que  tomara  el  valor  de  1  para  mujer  y  de  0  para  hombre,  o  viceversa. 

2.  La  categoria  a  la  cual  no  se  asigna  variable  dicotoma  se  conoce  como  categoria  base,  de 
comparacion,  de  control,  de  referenda  u  omitida.  Ademas,  todas  las  comparaciones  se  hacen 
respecto  de  la  categoria  de  comparacion. 

3.  El  valor  del  intercepto  (/h)  representa  el  valor  medio  de  la  categoria  de  comparacion.  En 
el  ejemplo  9.1,  dicha  categoria  es  la  region  Oeste.  En  consecuencia,  para  la  regresion  (9.2.5),  el 
valor  del  intercepto,  de  alrededor  de  48  015,  representa  el  salario  medio  de  los  maestros  para  los 
estados  del  Oeste. 

4.  Los  coeficientes  asociados  a  las  variables  dicotomas  en  (9.2.1)  se  conocen  como  coeficien- 
tes  de  intercepto  diferencial,  debido  a  que  indican  la  medida  en  que  el  valor  de  la  categoria  que 
recibe  el  valor  de  1  difiere  del  coeficiente  de  intercepto  correspondiente  a  la  categoria  de  com¬ 
paracion.  Por  ejemplo,  en  (9.2.5),  el  valor  aproximado  de  1  524  senala  que  el  salario  promedio 
de  los  maestros  de  la  region  Noreste  y  Norte-centro  es  mayor  por  aproximadamente  $1  524  que 
el  salario  medio  de  casi  $48  015  perteneciente  a  la  categoria  de  comparacion,  en  este  caso,  el 
Oeste. 


6  En  realidad,  obtendrfa  el  mensaje  de  que  la  matriz  es  singular. 
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5.  Si  una  variable  cualitativa  tiene  mas  de  una  categoria,  como  en  el  ejemplo  ilustrativo, 
la  eleccion  de  la  categoria  de  comparacion  se  deja  al  criterio  estricto  del  investigador.  A  veces 
dicha  eleccion  la  determina  el  problema  particular  que  se  trabaja.  Para  el  ejemplo  ilustrativo  se 
pudo  elegir  el  Sur  como  categoria  de  comparacion.  En  ese  caso  cambian  los  resultados  de  la  re¬ 
gresion  dados  en  (9.2.5),  pues  ahora  las  comparaciones  se  hacen  respecto  del  Sur.  Por  supuesto, 
lo  anterior  no  cambia  la  conclusion  general  del  ejemplo  (<,por  que?).  En  este  caso,  el  valor  del 
intercepto  sera  cercano  a  $46  294,  el  salario  medio  de  los  maestros  del  Sur. 

6.  Advertimos  sobre  la  trampa  de  la  variable  dicotoma.  Existe  una  forma  de  eludirla  al  in- 
troducir  tantas  variables  dicotomas  como  numeros  de  categorias  tenga  dicha  variable,  siempre  v 
cuando  no  se  introduzca  el  intercepto  en  dicho  modelo.  Asi,  si  eliminamos  el  termino  del  inter¬ 
cepto  de  (9.2.6)  y  consideramos  el  siguiente  modelo 

Yj  —  faDu  +  PiDu  +  A  O31  +  Hi  (9.2.7) 

no  caeremos  en  la  trampa  de  la  variable  dicotoma,  pues  no  existe  colinealidad  perfecta.  Pero  se 
debe  asegurar  de  que,  cuando  haga  esa  regresion,  utilice  la  opcion  “no  intercepto  ”  en  el  paque- 
te  de  software. 

A'omo  interpretamos  la  regresion  (9.2.7)?  Si  toma  la  esperanza  de  (9.2.7),  tendra  que: 

A  =  salario  medio  de  los  maestros  en  el  Oeste 

A  =  salario  medio  de  los  maestros  en  el  Noreste  y  Norte-centro 

A  =  salario  medio  de  los  maestros  en  el  Sur 

En  otras  palabras,  con  el  intercepto  eliminado  y  al  permitir  una  variable  dicotoma  para  cada 
categoria,  obtenemos  de  manera  directa  los  valores  medios  de  las  distintas  categorias.  Los  re¬ 
sultados  de  (9.2.7)  para  el  ejemplo  ilustrativo  son  los  siguientes: 


Yt  =  48  014.62ZA 

+  49  538.7LD2, 

+  46  293.59 Z)3, 

ee  =  (1  857.204) 

(1  461.240) 

(1  624.077) 

t  =  (25.853)* 

(33.902)* 

(28.505)* 

R2  =  0.044 


donde*  indica  que  los  valores p  de  estas  razones  t  son  muy  pequenos. 

Como  se  observa,  los  coeficientes  de  las  variables  dicotomas  proporcionan  de  manera  directa 
los  valores  medios  (de  los  salarios)  para  las  tres  regiones:  Oeste,  Noreste  y  Norte-centro,  y  Sur. 

7.  <;Cual  de  los  siguientes  metodos  es  el  mejor  para  introducir  una  variable  dicotoma:  1) 
agregar  una  variable  dicotoma  para  cada  categoria  y  omitir  el  termino  del  intercepto  o  2)  incluir 
el  termino  del  intercepto  y  anadir  solo  (/«  —  1 )  variables,  donde  m  es  el  numero  de  categorias  de 
la  variable  dicotoma?  Como  senala  Kennedy: 

La  mayorla  de  los  investigadores  piensan  que  es  mas  conveniente  la  ecuacion  con  intercepto  porque 
les  permite  enfrentar  de  manera  mas  sencilla  las  interrogantes  que  a  menudo  les  interesan  mas;  a 
saber,  si  la  categorizacion  genera  una  diferencia  o  no;  y  si  lo  hace,  en  que  medida.  Si  la  categoriza¬ 
cion  genera  una  diferencia,  el  grado  de  esta  diferencia  se  mide  directamente  por  las  estimaciones  de 
los  coeficientes  de  las  variables  dicotomas.  Probar  si  la  categorizacion  es  o  no  es  relevante  se  lleva 
a  cabo  mediante  la  prueba  t  del  coeficiente  de  una  variable  dicotoma,  respecto  de  cero  (o,  de  forma 
mas  general,  una  prueba  F  sobre  el  conjunto  apropiado  de  los  coeficientes  estimados  de  las  variables 
dicotomas).7 


7  Peter  Kennedy,  A  Guide  to  Econometrics,  4a.  ed.,  MIT  Press,  Cambridge,  Massachusetts,  1 998,  p.  223. 
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9.3  Modelos  ANOVA  con  dos  variables  cualitativas 


En  la  seccion  anterior  estudiamos  un  modelo  ANOVA  con  una  variable  cualitativa  de  tres  cate- 
gorias.  En  esta  seccion  analizaremos  otro  modelo  ANOVA,  pero  con  dos  variables  cualitativas, 
ademas  de  destacar  otros  aspectos  sobre  este  tipo  de  variables. 

EJEMPLO  9.2 

Salarios  por  horn 
en  relation  con  el 
estado  civil  y  la  re¬ 
gion  de  residencia 

De  una  muestra  de  528  personas  tomada  en  mayo  de  1985  se  obtuvieron  los  siguientes  resul- 
tados  de  regresion:* * * 8 

?i=  8.8148  +  1 .099702/-  1 .6729D3, 

ee=  (0.4015)  (0.4642)  (0.4854) 

t  =  (21.9528)  (2.3688)  (-3.4462)  (9.3.1) 

(0.0000)*  (0.0182)*  (0.0006)* 

R2=  0.0322 

donde  Y  =  salario  por  hora  ($) 

D2  =  estado  civil;  1  si  es  casado,  0  en  otro  caso 

D3  =  region  de  residencia;  1  si  es  del  Sur,  0  en  otro  caso 

y  *  denota  los  valores  p. 

En  este  ejemplo  tenemos  dos  regresoras  cualitativas,  cada  una  con  dos  categories.  Por  tanto, 
asignamos  una  variable  dicotoma  para  cada  categoria. 

^Cual  es  la  categoria  de  comparacion  en  este  caso?  Obvio,  son  los  no  casados  y  con  residen¬ 
cia  fuera  del  Sur.  En  otras  palabras,  las  personas  no  casadas  y  que  no  viven  en  el  Sur  forman  la 
categoria  omitida.  Por  consiguiente,  todas  las  comparaciones  se  establecen  respecto  de  este 
grupo.  El  salario  medio  por  hora  en  esta  categoria  base  es  de  casi  $8.81 .  Respecto  de  esta,  el 
salario  promedio  por  hora  de  los  que  estan  casados  es  mayor  por  casi  $1.10,  lo  cual  da  un  salario 
promedio  real  de  $9.91  (=  8.81  +  1.10).  En  contraste,  para  los  que  viven  en  el  Sur,  su  sala¬ 
rio  promedio  por  hora  es  menor  por  cerca  de  $1 .67,  lo  cual  da  un  salario  promedio  por  hora 
de  $7.1 4. 

4  Los  salarios  promedio  por  hora  anteriores  son  estadlsticamente  distintos  en  comparacion 
con  la  categoria  base?  SI  lo  son,  pues  todos  los  interceptos  diferenciales  son  estadlsticamente 
significativos:  sus  valores  p  son  muy  bajos. 

El  punto  que  debe  notarse  en  este  ejemplo  es  el  siguiente:  una  vez  que  se  va  mas  alia  de 
una  variable  cualitativa,  se  tiene  que  poner  mucha  atencion  a  la  categoria  considerada  como  base, 
porque  todas  las  comparaciones  se  llevan  a  cabo  respecto  de  dicha  categoria.  Esto  es  especialmente 
importante  cuando  se  tienen  varias  regresoras  cualitativas  y  cada  una  de  ellas  presenta  diversas 
categorias.  A  estas  alturas,  el  mecanismo  de  introduction  de  diversas  variables  cualitativas  debe 
ser  claro  para  el  lector. 

9.4  Regresion  con  una  mezcla  de  regresoras  cualitativas 
y  cuantitativas:  los  modelos  ANCOVA 


Los  modelos  ANOVA  del  tipo  que  vimos  en  las  dos  secciones  anteriores,  aunque  son  comunes  en 

areas  como  sociologla,  psicologla,  education  e  investigacion  de  mercados,  no  son  tan  frecuentes 

en  la  economla.  Por  lo  general,  en  la  mayor  parte  de  la  investigacion  economica,  un  modelo  de 


8  Los  datos  se  tomaron  del  disco  de  datos  de  Arthur  S.  Goldberger,  Introductory  Econometrics,  Harvard  Uni¬ 
versity  Press,  Cambridge,  Massachusetts,  1998.  Ya  se  tomaron  en  cuenta  esos  datos  en  el  capftulo  2. 
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regresion  contiene  diversas  variables  explicativas  cuantitativas  y  otras  cualitativas.  Los  modelos 
de  regresion  que  muestran  una  mezcla  de  variables  cuantitativas  y  cualitativas  se  llaman  mode¬ 
los  de  analisis  de  covarianza  (ANCOVA).  Tales  modelos  representan  una  generalization  de  los 
modelos  ANOVA  en  el  sentido  de  que  proporcionan  un  metodo  para  controlar  estadisticamente 
los  efectos  de  las  regresoras  cuantitativas  (llamadas  covariantes  o  variables  de  control)  en  un 
modelo  con  regresoras  cuantitativas  y  cualitativas  (o  dicotomas).  A  continuacion  se  ilustran 
los  modelos  ANCOVA. 


EJEMPLO  9.3 

Salario  de  los  maes¬ 
tros  en  relacion  con 
la  region  y  el  gasto 
en  escuelas  publicas 
por  alumno 


Para  motivar  el  analisis  regresemos  al  ejemplo  9.1  afirmando  que  el  salario  promedio  de  los 
maestros  de  escuelas  publicas  no  variara  en  las  tres  regiones  si  se  toma  en  cuenta  cualquier  va¬ 
riable  que  no  pueda  estandarizarse  en  las  tres  regiones.  Por  ejemplo,  piense  en  la  variable  gasto 
en  escuelas  publicas  erogado  por  las  autoridades  locales,  en  vista  de  que  la  educacion  primaria  es 
una  cuestion  sobre  todo  de  caracter  local  y  estatal.  Para  ver  si  este  es  el  caso,  desarrollamos  el 
siguiente  modelo: 


T;  —  Zb  +  02  Du  +  03  Du  +  04  X;  +  Uj 


(9.4.1) 


donde  Y-,  =  salario  promedio  anual  de  los  maestros  de  escuelas  publicas  en  el  estado  ($) 

X;  =  gasto  en  escuelas  publicas  por  alumno  ($) 

D2;  =1  si  el  estado  es  del  Noreste  o  Norte-centro;  0  en  otro  caso 
Dsi  =1  si  el  estado  es  del  Sur;  0  en  otro  caso 

Los  datos  para  X  se  proporcionan  en  la  tabla  9.1 .  Tenga  presente  que  se  considera  al  Oeste  como 
la  categoria  de  comparacion.  Asimismo,  note  que,  ademas  de  las  dos  regresoras  cualitativas,  se 
tiene  una  variable  cuantitativa,  X,  que  en  el  contexto  de  los  modelos  ANCOVA  se  conoce  como 
covariante,  como  dijimos  antes. 

De  los  datos  mostrados  en  la  tabla  9.1,  los  resultados  del  modelo  (9.4.1)  son  los  siguientes: 


Yj  =  28  694.91 8 
ee  =  (3  262.521) 
t=  (8.795)* 


-  2  954.1 2 7D2, 
(1  862.576) 
(-1.586)** 


-  3  1 1 2.1 94D3,  + 
(1  819.873) 
(-1.710)** 


2.3404X, 

(0.3592) 

(6.515)* 

R2  =  0.4977 


(9.4.2) 


donde  *  indica  valores  p  menores  que  5%  y  **  indica  valores  p  mayores  que  5%. 

Como  los  resultados  indican,  ceteris  paribus :  conforme  el  gasto  publico  aumenta  un  dolar,  en 
promedio,  el  salario  de  los  maestros  de  escuela  publica  se  incrementa  mas  o  menos  $2.34.  Si 
controlamos  el  gasto  en  educacion,  ahora  se  observa  que  el  coeficiente  de  intercepto  diferencial 
no  es  significativo  para  la  region  Noreste  y  Norte-centro  ni  para  el  Sur.  Estos  resultados  difieren 
de  los  de  (9.2.5).  Pero  no  debe  sorprender,  pues  en  (9.2.5)  no  tuvimos  en  cuenta  la  covariante, 
que  son  las  diferencias  del  gasto  publico  en  educacion  por  alumno.  La  situacion  se  ilustra  de 
manera  grafica  en  la  figura  9.2. 

Note  que,  si  bien  se  mostraron  tres  Ifneas  de  regresion  para  las  tres  regiones,  estadistica¬ 
mente  las  Ifneas  de  regresion  son  las  mismas  para  las  tres  regiones.  Tambien  observe  que  las  tres 
lineas  de  regresion  son  paralelas.  (,;Por  que?) 


Capftulo  9  Modelos  de  regresion  con  variables  dicotomas  285 


FIGURA  9.2 

Salario  de  los  maestros 
de  escuelas  publicas 
(7)  en  relacion  con  el 
gasto  en  educacion  por 
alumno  ( X ). 


Y 


9.5  La  variable  dicotoma  alternativa  a  la  prueba  de  Chow* 1 2 3 4 * * * * 9 


En  la  seccion  8.7  analizamos  la  prueba  de  Chow  para  examinar  la  estabilidad  estructural  del 
modelo  de  regresion.  El  ejemplo  ahl  tuvo  que  ver  con  la  relacion  entre  ahorro  e  ingreso  en  Es- 
tados  Unidos  de  1970  a  1995.  Dividimos  el  periodo  muestra  en  dos:  1970-1981  y  1982-1995; 
asimismo,  se  mostro,  con  base  en  la  prueba  de  Chow,  que  existia  una  diferencia  en  la  regresion 
del  ahorro  sobre  el  ingreso  para  los  dos  periodos. 

No  obstante,  no  pudimos  determinar  si  dicha  diferencia  en  las  dos  regresiones  se  debia  a  las 
diferencias  en  los  terminos  del  intercepto  o  en  los  coeficientes  de  la  pendiente,  o  a  ambas  situa- 
ciones.  Con  mucha  frecuencia,  saber  esto  por  si  mismo  resulta  muy  util. 

A1  ver  las  ecuaciones  (8.7.1)  y  (8.7.2)  se  observa  que  hay  cuatro  posibilidades,  las  cuales  se 
ilustran  en  la  figura  9.3: 

1 .  El  intercepto  y  los  coeficientes  de  las  pendientes  son  iguales  en  ambas  regresiones.  Esta  situa- 
cion,  el  caso  de  regresiones  coincidentes,  se  muestra  en  la  figura  9.3 a. 

2.  Solo  los  interceptos  en  ambas  regresiones  son  diferentes,  pero  las  pendientes  son  las  mismas. 
Este  caso,  de  regresiones  paralelas,  se  presenta  en  la  figura  9.3 b. 

3.  Los  interceptos  en  las  dos  regresiones  son  las  mismas,  pero  las  pendientes  son  distintas.  Esta 
situation  se  conoce  como  regresiones  concurrentes  y  se  muestra  en  la  figura  9.3c. 

4.  Ambos  interceptos  y  pendientes  en  las  dos  regresiones  son  distintos.  Este  caso  es  el  de  regre¬ 
siones  disimbolas,  lo  cual  se  muestra  en  la  figura  9.3 d. 

Como  ya  mencionamos,  la  prueba  de  Chow  de  multiples  pasos,  analizada  en  la  seccion  8.7, 

indica  solo  si  dos  (o  mas)  regresiones  son  distintas,  pero  no  el  origen  de  la  diferencia.  Dicha 


9  El  material  de  esta  seccion  se  basa  en  los  artfculos  del  autor  "Use  of  Dummy  Variables  in  Testing  for  Equa¬ 

lity  between  Sets  of  Coefficients  in  Two  Linear  Regressions:  A  Note"  y  "Use  of  Dummy  Variables.  .  .  A  Gene¬ 

ralization",  ambos  publicados  en  American  Statistician,  vol.  24,  nums.  1  y  5,  1970,  pp.  50-52  y  18-21 . 
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FIGURA  9.3 

Regresiones  plausibles  de 
ahorro-ingreso. 


Ahorro 


Ahorro 


b )  Regresiones  paralelas 


causa,  si  hay  alguna,  sale  a  la  luz  al  agrupar  todas  las  observaciones  (26  en  total)  y  llevar  a  cabo 
solo  una  regresion  multiple,  como  se  muestra  en  seguida:10 

Yt  —  a  i  +  oi2  Dt  +  P\Xt  +  fa  (DtXt)  +  ut  (9.5.1) 

donde  Y  —  ahorro 
X  —  ingreso 
t  —  tiempo 

D  —  1  para  las  observaciones  de  1982-1995 
=  0  en  otro  caso  (es  decir,  para  las  observaciones  de  1970-1981) 

La  tabla  9.2  muestra  la  estructura  de  la  matriz  de  datos. 

Para  ver  las  implicaciones  de  (9.5.1),  y  si  suponemos  que,  como  siempre,  E{ui)  —  0,  obtene- 
mos: 

Funcion  de  ahorros  medios para  1970-1981 : 

E(Yt\Dt  =  0,Xt)=ai+PiXt  (9.5.2) 

Funcion  de  ahorros  medios  para  1982-1995: 

E(Y,  |  A  =  1,  Xt)  =  (aj  +  «2)  +  (/3j  +  p2)X,  (9.5.3) 

El  lector  notara  que  se  trata  de  las  mismas  funciones  que  (8.7.1)  y  (8.7.2),  con  X\  —  a\,  A.2  =  ySi, 
Y\  —  (a\  +  a.2 )  y  Y2  —  (/Si  +  /32).  Por  tanto  la  estimacion  de  (9.5.1)  equivale  a  estimar  las  dos 
funciones  de  ahorro  individuales  (8.7.1)  y  (8.7.2). 


10  Como  en  la  prueba  de  Chow,  la  tecnica  de  agrupamiento  supone  la  homoscedasticidad;  es  decir,  al  = 

2  2 
°  • 
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TAB  LA  9.2 

Datos  sobre  ahorro  e 
ingreso,  Estados  Unidos, 
1970-1995 

Fuente:  Economic  Report  of  the 
President,  1997,  tabla  B-28, 
p.  332. 


Observacion 

Ahorro 

Ingreso 

Variable  dicotoma 

1970 

61 

727.1 

0 

1971 

68.6 

790.2 

0 

1972 

63.6 

855.3 

0 

1973 

89.6 

965 

0 

1974 

97.6 

1  054.2 

0 

1975 

104.4 

1  159.2 

0 

1976 

96.4 

1  273 

0 

1977 

92.5 

1  401.4 

0 

1978 

112.6 

1  580.1 

0 

1979 

130.1 

1  769.5 

0 

1980 

161.8 

1  973.3 

0 

1981 

199.1 

2  200.2 

0 

1982 

205.5 

2  347.3 

1 

1983 

167 

2  522.4 

1 

1984 

235.7 

2  810 

1 

1985 

206.2 

3  002 

1 

1986 

196.5 

3  187.6 

1 

1987 

168.4 

3  363.1 

1 

1988 

189.1 

3  640.8 

1 

1989 

187.8 

3  894.5 

1 

1990 

208.7 

4  166.8 

1 

1991 

246.4 

4  343.7 

1 

1992 

272.6 

4  613.7 

1 

1993 

214.4 

4  790.2 

1 

1994 

189.4 

5  021.7 

1 

1995 

249.3 

5  320.8 

1 

Nota:  Variable  dicotoma  =  1  para  observaciones  a  partir  de  1982;  0  en  otro  caso. 
Las  cifras  de  ahorro  e  ingreso  se  expresan  en  miles  de  millones  de  dolares. 


En  (9.5.1),  012  es  el  intercepto  diferencial,  como  antes;  y  P2  es  el  coeficiente  de  la  pendiente 
diferencial  (tambien  llamado  alterador  de  pendiente),  el  cual  indica  cuanto  difiere  el  coefi¬ 
ciente  de  la  pendiente  de  la  funcion  ahorro  del  segundo  periodo  (la  categorla  que  recibe  el  valor 
dicotomo  de  1)  respecto  del  primer  periodo.  Observe  que  la  introduccion  de  la  variable  dicotoma 
D  en  la  forma  interactiva,  o  multiplicativa  ( D  multiplicada  por  X),  permite  diferenciar  entre 
los  coeficientes  de  las  pendientes  de  los  dos  periodos,  del  mismo  modo  que  la  introduccion  de  la 
variable  dicotoma  en  forma  aditiva  permite  distinguir  entre  los  interceptos  de  los  dos  periodos. 


EJEMPLO  9.4 

Diferencias  estruc- 
turales  en  la  regre- 
sion  ahorro-ingreso 
para  Estados  Uni¬ 
dos:  metodo  de  la 
variable  dicotoma 


Antes  de  proseguir,  veamos  los  resultados  de  la  regresion  del  modelo  (9.5.1 )  aplicada  a  los  datos 
de  ahorro-ingreso  de  Estados  Unidos. 

Yt=  1.0161  +  152.4786Dt+  0.0803Xt  -  0.0655(DtX,) 

ee=  (20.1648)  (33.0824)  (0.0144)  (0.0159)  (9.5.4) 

t=  (0.0504)**  (4.6090)*  (5.5413)*  (-4.0963)* 

R2  =  0.8819 

donde  *  indica  valores  p  menores  que  5%,  y  **  indica  valores  p  mayores  que  5%. 


( continua ) 


288  Parte  Uno  Modelos  de  regresion  uniecuacionales 


EJEMPLO  9.4 

(i continuation ) 


Yt  =  1 .01  61  +  0.0803Xt  (9.5.5) 

Regresion  ahorro-ingreso  para  1 982- 1 995: 

Yt  =  (1 .01 61  +  1  52.4786)  +  (0.0803  -  0.0655)Xt 
=  153.4947  +  0.01 48Xt  (9.5.6) 

Estos  son  precisamente  los  resultados  obtenidos  en  (8.7.1  a)  y  (8.7.2a),  lo  cual  no  debe  sorpren- 

der.  Tales  regresiones  ya  se  mostraron  en  la  figura  8.3. 

Ahora  se  ven  de  inmediato  las  ventajas  de  la  tecnica  de  la  variable  dicotoma  [es  decir,  la 

estimacion  de  (9.5.1)],  sobre  la  prueba  de  Chow  [es  decir,  la  estimacion  de  las  tres  regresiones: 

(8.7.1),  (8.7.2)  y  (8.7.3)]: 

1 .  Solo  fue  necesaria  una  regresion,  pues  las  regresiones  individuales  pueden  derivarse  con  faci- 
lidad  a  partir  de  ella,  del  modo  indicado  por  las  ecuaciones  (9.5.2)  y  (9.5.3). 

2.  Con  la  regresion  (9.5.1)  se  prueban  diversas  hipotesis.  Por  tanto,  si  el  coeficiente  del  inter- 
cepto  diferencial  a2  es  estadfsticamente  insignificante,  se  puede  aceptar  la  hipotesis  de  que 
las  dos  regresiones  tienen  el  mismo  intercepto;  es  decir,  ambas  regresiones  son  concurrentes 
(compare  con  la  figura  9.3c).  De  modo  semejante,  si  el  coeficiente  de  la  pendiente  diferencial 
fi 2  es  estadfsticamente  insignificante  pero  012  es  significativo,  tal  vez  no  se  rechace  la  hipotesis 
de  que  las  dos  regresiones  tienen  la  misma  pendiente;  es  decir,  las  dos  Ifneas  de  regresion 
son  paralelas  (vease  la  figura  9.3b).  La  prueba  de  la  estabilidad  de  toda  la  regresion  (es  decir, 
a2  =  (82  =  0,  de  manera  simultanea)  se  lleva  a  cabo  mediante  la  prueba  F  usual  (recuerde  la 
prueba  Fde  los  mfnimos  cuadrados  restringidos).  Si  no  se  rechaza  la  hipotesis,  las  Ifneas  de 
regresion  seran  coincidentes,  como  se  aprecia  en  la  figura  9.3a. 

3.  La  prueba  de  Chow  no  establece  de  manera  explfcita  cual  coeficiente,  intercepto  o  pendiente 
es  distinto,  ni  si  ambos  son  diferentes  en  los  dos  periodos  (como  en  el  ejemplo  anterior).  Es 
decir,  se  puede  tener  una  prueba  de  Chow  significativa  debido  a  que  solo  la  pendiente  es 
diferente  o  a  que  solo  el  intercepto  es  distinto,  o  porque  ambos  lo  son.  En  otras  palabras, 
no  se  puede  saber,  mediante  la  prueba  de  Chow,  cual  de  las  cuatro  posibilidades  esquema- 
tizadas  en  la  figura  9.3  es  la  que  se  tiene  en  una  determinada  instancia.  Al  respecto,  el  me- 
todo  de  la  variable  dicotoma  tiene  una  clara  ventaja,  pues  no  solo  indica  si  los  dos  periodos 
son  distintos,  sino  que  tambien  destaca  la(s)  causa(s)  de  la  diferencia:  si  se  debe  al  intercepto, 
a  la  pendiente  o  a  las  dos.  En  la  practica,  saber  si  dos  regresiones  difieren  en  uno  u  otro 
coeficiente  resulta  tan  importante,  si  no  mas,  que  solo  saber  que  son  distintas. 

4.  Por  ultimo,  en  vista  de  que  el  agrupamiento  (es  decir,  incluir  todas  las  observaciones  en  una 
sola  regresion)  aumenta  los  grados  de  libertad,  tal  vez  mejore  la  precision  relativa  de  los 
parametros  estimados.  Por  supuesto,  tenga  en  cuenta  que  cada  inclusion  de  una  variable 
dicotoma  consumira  un  grado  de  libertad. 


Como  muestran  los  resultados  de  esta  regresion,  el  intercepto  diferencial  y  el  coeficiente  de  la 
pendiente  son  estadfsticamente  significativos,  lo  cual  indica  energicamente  que  las  regresiones 
ahorro-ingreso  para  los  dos  periodos  son  diferentes,  como  en  la  figura  9.3 d. 

De  (9.5.4)  derivamos  las  ecuaciones  (9.5.2)  y  (9.5.3),  las  cuales  son: 

Regresion  ahorro-ingreso  para  1970-1 981 : 


9.6  Efectos  de  interaccion  al  utilizar  variables  dicotomas 


Las  variables  dicotomas  son  una  herramienta  flexible  para  varios  problemas  interesantes.  Obser- 
vemos  lo  anterior  con  el  siguiente  modelo: 


Yj  —  ai  +  U2D21  +  oiiDij  +  jiXi  +  Hi 


(9.6.1) 
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donde  Y  —  salario  por  hora  en  dolares 

X  —  educacion  (anos  de  escolaridad) 

D2  —  1  si  es  mujer;  0  en  otro  caso 

£>3  =  1  si  no  es  bianco  y  no  hispano;  0  en  otro  caso 

En  este  modelo,  el  sexo  y  la  raza  son  regresoras  cualitativas  y  la  escolaridad  es  cuantitativa.* 11 
Esta  implicito  en  este  modelo  el  supuesto  de  que  el  efecto  diferencial  de  la  variable  dicotoma 
sexo,  D2,  es  constante  en  las  dos  categorias  de  raza,  y  el  efecto  diferencial  de  la  variable  dico¬ 
toma  raza,  D2,  tambien  es  constante  en  ambos  sexos.  Es  decir,  si  el  salario  medio  es  mayor  para 
los  hombres  que  para  las  mujeres,  esto  ocurre  independientemente  de  que  sean  no  blancos/no 
hispanos  o  no.  De  igual  forma,  si  por  ejemplo  los  no  blancos/no  hispanos  tienen  salarios  medios 
menores,  esto  ocurre  independientemente  de  que  sean  hombres  o  mujeres. 

En  muchas  aplicaciones  dicho  supuesto  puede  ser  insostenible.  Una  mujer  no  blanca  ni  his- 
pana  tal  vez  gane  menor  salario  que  un  hombre  de  esa  misma  categoria.  En  otras  palabras,  quiza 
haya  interaccion  entre  las  dos  variables  cualitativas  D2  y  D2.  Por  tanto,  su  efecto  sobre  la  media 
Y  quiza  no  sea  simplemente  aditivo,  como  en  (9.6.1),  sino  tambien  multiplicativo,  como  en  el 
siguiente  modelo: 

Yj  —  a\  +  a2D2i  +  a^Dy  +  U4(D2jDy )  +  fiXj  +  Uj  (9.6.2) 

donde  las  variables  estan  definidas  como  en  el  modelo  (9.6.1). 

De  (9.6.2)  obtenemos 

E(Yi  |  D2i  —  1,  Dv  —  1,  Xj)  —  (ai  +  a2  +  ot2  +  at)  +  f)Xj  (9.6.3) 
que  es  la  funcion  salario  medio  por  hora  para  las  trabajadoras  no  blancas  ni  hispanas.  Observe  que 

a2  —  efecto  diferencial  de  ser  mujer 

0:3  =  efecto  diferencial  de  ser  no  bianco  ni  hispano 

04  —  efecto  diferencial  de  ser  mujer  no  blanca  ni  hispana 

lo  cual  muestra  que  el  salario  medio  por  hora  de  las  mujeres  no  blancas  ni  hispanas  es  diferente 
(en  una  cantidad  igual  a  014 )  del  salario  medio  por  hora  de  las  mujeres  blancas  o  hispanas.  Si  por 
ejemplo  los  tres  coeficientes  de  las  variables  dicotomas  son  negativos,  se  implica  que  las  traba¬ 
jadoras  no  blancas  ni  hispanas  ganan  un  salario  medio  por  hora  mucho  mas  bajo  que  las  trabaja¬ 
doras  blancas  o  hispanas,  en  comparacion  con  la  categoria  base,  la  cual  en  el  ejemplo  presente  es 
la  de  hombres  blancos  o  hispanos. 

Ahora  el  lector  puede  observar  la  forma  en  que  la  variable  dicotoma  de  interaccion  (es  decir, 
el  producto  de  dos  variables  cualitativas  o  dicotomas)  modifica  el  efecto  de  los  dos  atributos  con- 
siderados  de  manera  individual  (es  decir,  en  forma  aditiva). 


EJEMPLO  9.5 

Ingreso  promedio 
por  hora  en  compa¬ 
racion  con  la  esco¬ 
laridad,  sexo  y  raza 


Veamos  primero  los  resultados  de  la  regresion  basados  en  el  modelo  (9.6.1).  Con  los  datos  con 
que  se  estimo  la  regresion  (9.3.1)  obtuvimos  lo  siguiente: 

Y,  =  -0.2610  -  2.3606 D2,  -  1.7327D3,  +  0.8028X, 

t=  (-0.2357)"  (-5.4873)*  (-2.1803)*  (9.9094)*  (9.6.4) 

R2  =  0.2032  n  =  528 

donde  *  indica  valores  p  menores  que  5%  y  **  indica  valores  p  mayores  que  5%. 

( continua ) 


11  Si  definieramos  la  variable  escolaridad  como  menos  que  educacion  media  superior,  educacion  media  su¬ 
perior  y  mas  que  educacion  media  superior,  podrfamos  utilizar  entonces  dos  variables  dicotomas  para  repre- 
sentar  las  tres  clases. 
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EJEMPLO  9.5  El  lector  puede  verificar  que  los  coeficientes  de  intercepto  diferenciales  son  estadfsticamente 

( continuation )  significativos,  que  tienen  los  signos  que  se  esperaban  (£por  que?)  y  que  la  escolaridad  tiene  un 

gran  efecto  positivo  sobre  el  salario  por  hora,  lo  cual  no  causa  sorpresa  alguna. 

Como  lo  muestra  (9.6.4),  ceteris  paribus,  el  ingreso  promedio  por  hora  de  las  mujeres  es  in¬ 
ferior  por  cerca  de  $2.36;  ademas,  el  ingreso  promedio  por  hora  de  los  trabajadores  no  blancos 
ni  hispanos  tambien  es  menor  por  aproximadamente  $1 .73. 

Ahora  consideremos  los  resultados  del  modelo  (9.6.2),  que  incluyen  la  variable  dicotoma  de 
interaccion. 

Yi=  - 0.26100  -  2.360 6D2,  -  1 ,7327D3;  +  2.1 289D2,D3/  +  0.8028X, 

t=  (-0.2357)**  (-5.4873)*  (-2.1803)*  (1.7420)**  (9.9095)**  (9.6.5) 

R2  =  0.2032  n  =  528 

donde  *  indica  valores  p  menores  que  5%  y  **  indica  valores  p  mayores  que  5%. 

Como  se  nota,  las  dos  variables  dicotomas  aditivas  son  aun  estadfsticamente  significativas, 
pero  la  variable  dicotoma  interactiva  no  esta  al  nivel  convencional  de  5%;  el  valor  p  real  de  la 
variable  de  interaccion  es  de  un  nivel  de  casi  8%.  Si  consideramos  que  esto  es  una  probabilidad 
lo  bastante  baja,  interpretamos  los  resultados  de  (9.6.5)  de  la  siguiente  manera:  si  se  mantiene 
constante  el  nivel  de  educacion  y  se  suman  los  tres  coeficientes  de  las  variables  dicotomas, 
obtendremos  —1 .964  (=  —2.3605  —  1 .7327  +  2.1 289),  lo  cual  significa  que  los  salarios  medios 
por  hora  de  las  trabajadoras  no  blancas  ni  hispanas  es  menor  por  casi  $1 .96,  valor  que  esta  entre 
—2.3605  (diferencia  debido  solo  al  sexo)  y  —1 .7327  (diferencia  debida  solo  a  la  raza). 


El  ejemplo  anterior  revela  con  claridad  la  interaccion  de  las  variables  dicotomas  cuando  se 
incluyen  en  el  modelo  dos  o  mas  regresoras  cualitativas.  Es  importante  observar  que  en  el  modelo 
(9.6.5)  se  supone  que  la  tasa  de  crecimiento  de  los  ingresos  por  hora  respecto  de  la  escolaridad 
(de  cerca  de  80  centavos  por  ano  adicional  de  escolaridad)  sigue  constante  en  cuanto  al  sexo  y 
la  raza.  Pero  esto  tal  vez  no  sea  asi.  Si  desea  probar  lo  anterior  debera  introducir  coeficientes  de 
pendiente  diferenciales  (vease  el  ejercicio  9.25). 


9.7  Uso  de  las  variables  dicotomas  en  el  analisis  estacional 


Muchas  series  de  tiempo  economicas  que  se  basan  en  datos  mensuales  o  trimestrales  presentan 
pautas  estacionales  (movimiento  oscilatorio  regular);  por  ejemplo,  las  ventas  de  las  tiendas  de 
departamentos  en  la  epoca  de  Navidad  y  otras  festividades  importantes,  la  demanda  de  dinero 
(saldos  de  efectivo)  por  parte  de  las  familias  en  epocas  de  vacaciones,  la  demanda  de  helado  y 
bebidas  gaseosas  durante  el  verano  y  los  precios  de  los  cultivos  justo  despues  de  la  epoca  de 
cosecha,  la  demanda  de  viajes  en  avion,  etc.  A  menudo  es  util  eliminar  el  factor  o  componente 
estacional  de  las  series  de  tiempo  con  el  fin  de  concentrarse  en  los  demas  componentes,  como  la 
tendencia.12  El  proceso  de  eliminar  el  componente  estacional  de  una  serie  de  tiempo  se  conoce 
como  desestacionalizacion  o  ajuste  estacional,  y  la  serie  de  tiempo  asi  obtenida  se  denomina 
serie  de  tiempo  desestacionalizada  o  ajustada  por  estacionalidad.  Las  series  de  tiempo  econo¬ 
micas  importantes,  como  el  indice  de  precios  al  consumidor  (IPC),  el  indice  de  precios  del  pro- 
ductor  (1PP)  y  el  indice  de  production  industrial,  suelen  publicarse  ajustadas  por  estacionalidad. 


12  Una  serie  de  tiempo  puede  tener  cuatro  componentes:  (1)  estacional,  (2)  ciclico,  (3)  tendencia  y 
(4)  estrictamente  aleatorio. 
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TAB  LA  9.3 

Datos  trimestrales  sobre 
ventas  de  aparatos  elec- 
trodomesticos  (en  miles) 
y  gasto  en  bienes  dura- 
deros  (del  primer  tri- 
mestre  de  1978  al  cuarto 
de  1985) 


Fuente:  Business  Statistics  and 
Survey  of  Current  Business,  De¬ 
partment  of  Commerce  (varios 
numeros). 


LAVLZ 

TRIT 

REFR 

LAVD 

BIDU 

LAVLZ 

TRIT 

REFR 

LAVD 

BIDU 

841 

798 

1  317 

1  271 

252.6 

480 

706 

943 

1  036 

247.7 

957 

837 

1  615 

1  295 

272.4 

530 

582 

1  175 

1  019 

249.1 

999 

821 

1  662 

1  313 

270.9 

557 

659 

1  269 

1  047 

251.8 

960 

858 

1  295 

1  150 

273.9 

602 

837 

973 

918 

262 

894 

837 

1  271 

1  289 

268.9 

658 

867 

1  102 

1  137 

263.3 

851 

838 

1  555 

1  245 

262.9 

749 

860 

1  344 

1  167 

280 

863 

832 

1  639 

1  270 

270.9 

827 

918 

1  641 

1  230 

288.5 

878 

818 

1  238 

1  103 

263.4 

858 

1  017 

1  225 

1  081 

300.5 

792 

868 

1  277 

1  273 

260.6 

808 

1  063 

1  429 

1  326 

312.6 

589 

623 

1  258 

1  031 

231.9 

840 

955 

1  699 

1  228 

322.5 

657 

662 

1  417 

1  143 

242.7 

893 

973 

1  749 

1  297 

324.3 

699 

822 

1  185 

1  101 

248.6 

950 

1  096 

1  117 

1  198 

333.1 

675 

871 

1  196 

1  181 

258.7 

838 

1  086 

1  242 

1  292 

344.8 

65  2 

791 

1  410 

1  116 

248.4 

884 

990 

1  684 

1  342 

350.3 

628 

759 

1  417 

1  190 

255.5 

905 

1  028 

1  764 

1  323 

369.1 

529 

734 

919 

1  125 

240.4 

909 

1  003 

1  328 

1  274 

356.4 

Nota:  LAVLZ  =  lavalozas;  TRIT  =  trituradores  de  basura;  REFR  =  refrigeradores;  LAVD  =  lavadoras;  BIDU  =  gasto  en  bienes  dura- 
deros,  miles  de  millones  de  dolares  de  1982. 


Hay  diversos  metodos  para  desestacionalizar  una  serie  de  tiempo,  pero  consideraremos  solo 
uno:  el  metodo  de  las  variables  dicotomas  .u  Para  ilustrar  la  forma  de  desestacionalizar  con  las 
variables  dicotomas,  considere  los  datos  de  la  tabla  9.3.  Se  trata  de  datos  trimestrales  de  1978 
a  1995  respecto  de  las  ventas  de  cuatro  aparatos  principales:  lavalozas,  trituradores  de  basura, 
refrigeradores  y  lavadoras,  en  miles  de  unidades.  La  tabla  tambien  suministra  datos  sobre  el  gasto 
en  bienes  duraderos  en  1982,  en  miles  de  millones  de  dolares. 

A  fin  de  ilustrar  la  tecnica  de  la  variable  dicotoma  consideraremos  solo  las  ventas  de  los  re¬ 
frigeradores  en  el  periodo  de  muestra.  Pero  primero  observe  los  datos  de  la  figura  9.4.  Esa  figura 
indica  que  tal  vez  exista  un  modelo  estacional  en  los  datos  asociados  con  los  diversos  trimestres. 
Para  verificarlo,  vea  el  siguiente  modelo: 


Y,  —  U\D\,  +  a2D2t  +  <x2iD2,  +  a4D4t  +  u,  (9.7.1) 

donde  Y,  —  ventas  de  refrigeradores  (en  miles)  y  las  D  son  las  variables  dicotomas,  las  cuales 
toman  un  valor  de  1  en  el  trimestre  relevante,  y  0  en  otro  caso.  Observe  que  para  evitar  la  trampa 
de  la  variable  dicotoma  asignamos  una  variable  dicotoma  a  cada  trimestre  del  ano,  pero  omi- 
timos  el  termino  del  intercepto.  Si  hubiera  algun  efecto  estacional  en  un  determinado  trimestre 
se  senalaria  mediante  un  valor  t  estadisticamente  significativo  del  coeficiente  de  la  variable  dico¬ 
toma  para  dicho  trimestre.14 

Observe  que  en  (9.7.1)  se  hace  la  regresion  de  Y efectivamente  sobre  un  intercepto,  salvo  que 
se  permite  un  intercepto  distinto  para  cada  temporada  (es  decir,  trimestre).  Como  resultado,  el 
coeficiente  de  la  variable  dicotoma  de  cada  trimestre  proporcionara  la  media  de  las  ventas  de 
refrigeradores  de  cada  trimestre  o  temporada  ((.por  que?). 


13  Para  los  diversos  metodos  de  ajuste  estacional,  vease  por  ejemplo  Francis  X.  Diebold,  Elements  of  Forecas¬ 
ting,  2a.  ed.,  South-Western  Publishers,  2001,  capftulo  5. 

14  Considere  un  aspecto  tecnico.  Este  metodo  de  asignar  una  variable  dicotoma  a  cada  trimestre  supone  que 
el  factor  estacional,  si  esta  presente,  es  determinista  y  no  estocastico.  Volveremos  a  este  tema  cuando  anali- 
cemos  la  econometrfa  de  las  series  de  tiempo,  en  la  parte  V  de  este  libro. 
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FIGURA  9.4 

Ventas  de  refrigeradores, 
1978-1985  (trimestrales). 


EJEMPLO  9.6 

Estacionalidad  en 
las  ventas  de  refri¬ 
geradores 


TAB  LA  9.4 

Ventas  de  refrigerado¬ 
res  (miles)  en  Estados 
Unidos,  de  1978  a  1985 
(trimestrales) 

Fuente:  Business  Statistics  and 
Survey  of  Current  Business , 
Department  of  Commerce 
(varios  numeros). 


Ano 


De  los  datos  sobre  las  ventas  de  refrigeradores  de  la  tabla  9.4  se  obtienen  los  siguientes  resulta- 
dos  de  la  regresion: 

Y,  =  1  222.1 25Dlt+  1  467.500D2,  +  1  569.750 Dit  +  1  160.000D4t 
f=  (20.3720)  (24.4622)  (26.1666)  (19.3364)  (9.7.2) 

R2  =  0.5317 

Nota:  No  se  proporcionaron  los  errores  estandar  de  los  coeficientes  estimados:  cada  uno  de  ellos 
es  igual  a  59.9904,  pues  todas  las  variables  dicotomas  solo  toman  el  valor  de  1  o  de  0. 

Los  coeficientes  estimados  a  en  (9.7.2)  representan  el  promedio,  o  media,  de  las  ventas  de 
refrigeradores  (en  miles  de  unidades)  en  cada  temporada  (es  decir,  trimestre).  Por  tanto,  el 
promedio  de  ventas  de  refrigeradores  en  el  primer  trimestre,  en  miles  de  unidades,  es  de  casi 
1  222,  en  el  segundo  trimestre  fue  de  casi  1  468,  las  del  tercer  trimestre  fueron  de  1  570  aproxi- 
madamente,  y  las  del  ultimo  trimestre  fueron  de  casi  1  1 60. 


REFRI 

BIDU 

d2 

D3 

d4 

REFRI 

BIDU 

d2 

Di 

d4 

1  317 

252.6 

0 

0 

0 

943 

247.7 

0 

0 

0 

1  615 

272.4 

1 

0 

0 

1  175 

249.1 

1 

0 

0 

1  662 

270.9 

0 

1 

0 

1  269 

251.8 

0 

1 

0 

1  295 

273.9 

0 

0 

1 

973 

262.0 

0 

0 

1 

1  271 

268.9 

0 

0 

0 

1  102 

263.3 

0 

0 

0 

1  555 

262.9 

1 

0 

0 

1  344 

280.0 

1 

0 

0 

1  639 

270.9 

0 

1 

0 

1  641 

288.5 

0 

1 

0 

1  238 

263.4 

0 

0 

1 

1  225 

300.5 

0 

0 

1 

1  277 

260.6 

0 

0 

0 

1  429 

312.6 

0 

0 

0 

1  258 

231.9 

1 

0 

0 

1  699 

322.5 

1 

0 

0 

1  417 

242.7 

0 

1 

0 

1  749 

324.3 

0 

1 

0 

1  185 

248.6 

0 

0 

1 

1  117 

333.1 

0 

0 

1 

1  196 

258.7 

0 

0 

0 

1  242 

344.8 

0 

0 

0 

1  410 

248.4 

1 

0 

0 

1  684 

350.3 

1 

0 

0 

1  417 

255.5 

0 

1 

0 

1  764 

369.1 

0 

1 

0 

919 

240.4 

0 

0 

1 

1  328 

356.4 

0 

0 

1 

Nota:  REFRI  =  ventas  de  refrigeradores,  miles  de  unidades. 

BIDU  =  gasto  en  bienes  duraderos,  miles  de  millones  de  dolares  de  1982. 
£>2  =  1  en  el  segundo  trimestre;  0  en  otro  caso. 

£>3  =  1  en  el  tercer  trimestre;  0  en  otro  caso. 

£>4  =  1  en  el  cuarto  trimestre;  0  en  otro  caso. 
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EJEMPLO  9.6 

(i continuation ) 


A  proposito,  en  vez  de  asignar  una  variable  dicotoma  a  cada  trimestre  y  suprimir  el  termino 
del  intercepto  a  fin  de  evitar  la  trampa  de  variable  dicotoma,  se  puede  asignar  solo  tres  variables 
dicotomas  e  incluir  el  termino  del  intercepto.  Suponga  que  consideramos  el  primer  trimestre 
como  referencia  y  asignamos  variables  dicotomas  al  segundo,  tercero  y  cuarto.  Lo  anterior  da  los 
siguientes  resultados  de  regresion  (vease  la  tabla  9.4  para  la  organizacion  de  los  datos): 

Y,  =  1  222.1250  +  245.3750D2t  +  347.6250D3t  -  62.1250D4t 
f=  (20.3720)*  (2.8922)*  (4.0974)*  (-0.7322)**  (9.7.3) 

R2  =  0.5318 

donde  *  indica  valores  p  menores  que  5%,  y  **  indica  valores  p  mayores  que  5%. 

Como  consideramos  el  primer  trimestre  como  punto  de  referencia,  los  coeficientes  relacio- 
nados  con  las  distintas  variables  dicotomas  ahora  son  interceptos  diferenciales  que  muestran 
en  que  medida  el  valor  promedio  de  Y  en  el  trimestre  que  recibe  un  valor  de  1  para  la  variable 
dicotoma  difiere  del  trimestre  que  es  punto  de  referencia.  En  otras  palabras,  los  coeficientes  de 
las  variables  estacionales  indican  el  incremento  o  decremento  estacional  del  valor  promedio 
de  Y  en  relacion  con  la  temporada  base.  Si  se  suman  los  distintos  valores  del  intercepto  diferen- 
cial  al  valor  promedio  de  referencia  de  1  222.125,  se  tendra  el  valor  promedio  para  los  distintos 
trimestres.  Al  llevar  a  cabo  lo  anterior  se  reproducira  exactamente  la  ecuacion  (9.7.2),  salvo 
errores  de  redondeo. 

Ahora  apreciara  el  valor  de  considerar  un  trimestre  como  punto  de  referencia,  pues  (9.7.3) 
muestra  que  el  valor  promedio  de  Y  para  el  cuarto  trimestre  no  es  estadfsticamente  distinto  del 
valor  promedio  para  el  primer  trimestre,  porque  el  coeficiente  de  la  variable  dicotoma  para  el 
cuarto  trimestre  no  es  estadfsticamente  significativo.  Por  supuesto,  la  respuesta  cambia  segun 
el  trimestre  con  que  se  compare;  no  obstante,  la  conclusion  general  sigue  siendo  la  misma. 

iComo  obtener  la  serie  de  tiempo  desestacionalizada  de  las  ventas  de  los  refrigeradores?  Es 
facil.  Se  estiman  los  valores  Y  a  partir  del  modelo  (9.7.2)  [o  (9.7.3)]  para  cada  observacion  y 
se  restan  de  los  valores  reales  de  Y;  es  decir,  se  obtiene  (Yt  —  Yt),  que  son  solo  los  residuos  de  la 
regresion  (9.7.2),  los  cuales  se  presentan  en  la  tabla  9. 5. 15  A  estos  residuos  es  necesario  sumarles 
la  media  de  las  series  Y  para  obtener  los  valores  pronosticados. 

^Que  representan  estos  residuos?  Significan  los  componentes  que  quedan  de  la  serie  de 
tiempo  de  los  refrigeradores,  a  saber,  la  tendencia,  el  ciclo  y  el  componente  aleatorio  (pero 
tenga  en  cuenta  la  advertencia  de  la  nota  15). 

Como  los  modelos  (9.7.2)  y  (9.7.3)  no  contienen  covariantes,  ^cambiarfa  la  situacion  si  se 
anade  una  regresora  cuantitativa  al  modelo?  Por  la  influencia  del  gasto  en  bienes  duraderos 
sobre  la  demanda  de  refrigeradores,  el  modelo  (9.7.3)  se  extendera  para  incluir  esta  variable. 
Los  datos  para  el  gasto  en  bienes  duraderos  en  miles  de  millones  de  dolares  de  1 982  ya  se  pro- 
porcionaron  en  la  tabla  9.3.  Esta  es  la  variable  X  (cuantitativa)  del  modelo.  Los  resultados  de  la 
regresion  son  los  siguientes: 

Yt  =  456.2440  +  242.4976D2t  +  325.2643D3f  -  86.0804D4t  +  2.7734Xt 
t=  (2.5593)*  (3.6951)*  (4.9421)*  (-1.3073)**  (4.4496)*  (9.7.4) 

R2  =  0.7298 

donde  *  indica  valores  p  menores  que  5%  y  **  indica  valores  p  mayores  que  5%. 

( continua ) 


15  Desde  luego,  esto  supone  que  la  tecnica  de  las  variables  dicotomas  es  adecuada  para  desestacionalizar 
una  serie  de  tiempo,  y  que  una  serie  de  tiempo  (ST)  puede  representarse  como  ST  =  s+  c+  t+u,  donde 
s  indica  la  estacionalidad,  t  la  tendencia,  c  el  ciclo  y  u  el  componente  aleatorio.  No  obstante,  si  la  serie  de 
tiempo  es  de  la  forma  ST  =  (s)(c)(t)(u),  donde  las  cuatro  componentes  ingresan  de  manera  multiplicativa, 
el  metodo  anterior  para  desestacionalizar  resuita  inapropiado,  pues  supone  que  los  cuatro  componentes  de 
una  serie  de  tiempo  son  aditivos.  Sin  embargo,  diremos  mas  al  respecto  en  los  capftulos  sobre  econometrfa 
de  las  series  de  tiempo. 
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EJEMPLO  9.6 

(i continuation ) 


TABLA  9.5  Regresion  de  las  ventas  de  refrigeradores:  valores  reales,  ajustados  y  residuales 
(ec.  9.7.3) 


Grafica  de  residuos 


Real 

Ajustado 

Residual 

) 

1978-1 

1  317 

1  222.12 

94.875 

* 

1978-11 

1  615 

1  467.50 

147.500 

* 

1978-111 

1  662 

1  569.75 

92.250 

* 

1978-IV 

1  295 

1  160.00 

135.000 

* 

1979-1 

1  271 

1  222.12 

48.875 

* 

1979-11 

1  555 

1  467.50 

87.500 

■k 

1979-111 

1  639 

1  569.75 

69.250 

* 

1979-IV 

1  238 

1  160.00 

78.000 

* 

1980-1 

1  277 

1  222.12 

54.875 

* 

1980-11 

1  258 

1  467.50 

-209.500 

* 

1980-111 

1  417 

1  569.75 

-152.750 

* 

1980-IV 

1  185 

1  160.00 

25.000 

* 

1981-1 

1  196 

1  222.12 

-26.125 

* 

1981-11 

1  410 

1  467.50 

-57.500 

* 

1981-111 

1  417 

1  569.75 

-152.750 

* 

1981 -IV 

919 

1  160.00 

-241.000 

1982-1 

943 

1  222.12 

-279.125 

* 

1982-11 

1  175 

1  467.50 

-292.500 

* 

1982-111 

1  269 

1  569.75 

-300.750 

* 

1982-IV 

973 

1  160.00 

-187.000 

*. 

1983-1 

1  102 

1  222.12 

-120.125 

* 

1983-11 

1  344 

1  467.50 

-123.500 

1983-111 

1  641 

1  569.75 

71.250 

* 

1983-IV 

1  225 

1  160.00 

65.000 

* 

1984-1 

1  429 

1  222.12 

206.875 

* 

1984-11 

1  699 

1  467.50 

231.500 

* 

1984-111 

1  749 

1  569.75 

179.250 

* 

1984-IV 

1  117 

1  160.00 

-43.000 

* 

1985-1 

1  242 

1  222.12 

19.875 

* 

1985-11 

1  684 

1  467.50 

216.500 

* 

1985-111 

1  764 

1  569.75 

194.250 

* 

1985-IV 

1  328 

1  160.00 

168.000 

* 

-  0  + 


De  nuevo,  tenga  en  cuenta  que  consideramos  como  base  al  primer  trimestre.  Al  igual  que  en 
(9.7.3),  vea  que  los  coeficientes  de  intercepto  diferenciales  para  el  segundo  y  tercer  trimestres 
son  estadfsticamente  diferentes  de  los  del  primer  trimestre;  pero  los  interceptos  del  cuarto  y 
primer  trimestres  son  estadfsticamente  iguales.  El  coeficiente  de  X  (gasto  en  bienes  duraderos), 
cercano  a  2.77,  indica  que,  si  se  permiten  los  efectos  estacionales  y  el  gasto  en  bienes  duraderos 
se  incrementa  un  dolar  las  ventas  de  refrigeradores  aumentan  en  promedio  cerca  de  2.77  uni- 
dades;  es  decir,  aproximadamente  3  unidades.  Considere  que  los  refrigeradores  estan  dados  en 
miles  de  unidades  y  X  esta  en  miles  de  millones  de  dolares  (de  1 982). 

Una  pregunta  interesante  es:  al  igual  que  las  ventas  de  refrigeradores  muestran  patrones  es¬ 
tacionales,  ^el  gasto  en  bienes  duraderos  tambien  presenta  patrones  estacionales?  ^Como  tomar 
en  cuenta  entonces  la  naturaleza  estacional  de  X?  Lo  destacable  respecto  de  (9.7.4)  es  que  las 
variables  dicotomas  de  ese  modelo  no  solo  eliminan  la  estacionalidad  en  Y,  sino  que  tambien  la 
estacionalidad,  si  existe,  en  X.  (Esto  se  deduce  del  teorema  de  Frisch-Waugh,  muy  conocido 
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EJEMPLO  9.6  en  estadistica.)16  Por  decirlo  asi,  se  matan  (desestacionalizan)  dos  pajaros  (dos  series)  con  un  tiro 

(continuation)  (la  tecnica  de  variable  dicotoma). 

Si  desea  una  prueba  informal  del  enunciado  anterior,  solo  siga  estos  pasos:  1)  Haga  la  re¬ 
gresion  de  Y  sobre  las  variables  dicotomas,  como  en  (9.7.2)  o  (9.7.3),  y  guarde  los  residuos, 
por  ejemplo  5i;  representan  a  la  Y  desestacionalizada.  2)  Efectue  una  regresion  similar  para  X 
y  obtenga  los  residuos  de  esta  regresion,  por  ejemplo  S2;  tales  residuos  representan  a  la  X  des¬ 
estacionalizada.  3)  Lleve  a  cabo  la  regresion  de  5i  sobre  S2 .  Descubrira  que  el  coeficiente  de  la 
pendiente  de  esta  regresion  es  precisamente  el  coeficiente  de  X  de  la  regresion  (9.7.4). 


9.8  Regresion  lineal  por  segmentos 


Para  ilustrar  una  vez  mas  el  uso  de  las  variables  dicotomas,  considere  la  figura  9.5,  que  muestra 
la  forma  como  una  compania  hipotetica  remunera  a  sus  representantes  de  ventas.  Las  comisiones 
se  pagan  con  base  en  las  ventas  de  forma  que,  hasta  un  cierto  nivel,  meta  o  umbral,  nivel  X*, 
existe  una  estructura  de  comisiones  (estocastica),  mientras  que  por  encima  de  ese  nivel  existe 
otra.  ( Nota :  Ademas  de  las  ventas,  hay  otros  factores  que  afectan  la  comision  de  las  ventas.  Su- 
ponga  que  estos  otros  factores  estan  representados  por  el  termino  de  perturbacion  estocastico.) 
Mas  especificamente,  se  supone  que  la  comision  de  ventas  aumenta  linealmente  con  las  ven¬ 
tas  hasta  el  nivel  del  umbral  X*,  despues  del  cual  esta  tambien  aumenta  linealmente  con  las 
ventas  pero  a  una  tasa  mayor.  Por  tanto,  se  tiene  una  regresion  lineal  por  segmentos  que  consta 
de  dos  partes  o  segmentos  lineales,  a  los  cuales  se  les  da  el  nombre  de  I  y  II  en  la  figura  9.5,  y 
la  funcion  de  las  comisiones  cambia  su  pendiente  en  el  valor  del  umbral.  Dados  los  datos  sobre 
comisiones,  ventas  y  el  valor  del  nivel  del  umbral  X*,  con  la  tecnica  de  las  variables  dicotomas 
se  estiman  las  diferentes  pendientes  de  los  dos  segmentos  de  la  regresion  lineal  por  secciones  que 
aparece  en  la  figura  9.5.  Procedemos  de  la  siguiente  manera: 

Yi=a  1  +  fi\  Xi  +  k(Xi  -  X*)D,  +  Ui  (9.8.1) 


FIGURA  9.5 

Relation  hipotetica  entre 
las  comisiones  de  ventas 
y  el  volumen  de  ventas. 
(Nota:  El  intercepto  en  el 
eje  Y  denota  una  comision 
minima  garantizada.) 


Y 


X (ventas) 


16  Para  una  demostracion,  vease  Adrian  C.  Darnell,  A  Dictionary  of  Econometrics,  Edward  Elgar,  Lyme,  Gran 
Bretana,  1995,  pp.  150-152. 
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donde  Y,  —  comision  de  ventas 

X }  —  volumen  de  ventas  generado  por  el  vendedor 

X*  —  valor  del  umbral  de  las  ventas,  conocido  tambien  como  nudo  (conocido  por  antici- 
pado)17 

£>  =  1  si^>X* 

=  0  siXi<X* 

Si  E(iij)  —  0  vemos  inmediatamente  que 


E(Ji  |  D,  =  0,  Xu  X*)  =  ai  +  fh Xt  (9.8.2) 

el  cual  muestra  la  comision  de  ventas  promedio  hasta  el  nivel  objetivo  X*  y 

E(Yt  I  A  =  1,  X,,  X *)  =  ai  -  frX*  +  (At  +  fo)Xi  (9.8. B) 

que  muestra  la  comision  de  ventas  promedio  mas  alia  del  nivel  objetivo  X*. 

Asi,  At  corresponde  a  la  pendiente  de  la  linea  de  regresion  en  el  segmento  1  y  fi\  +  fi2  co- 
rresponde  a  la  pendiente  de  la  linea  de  regresion  en  el  segmento  II  de  la  regresion  lineal  por 
segmentos  de  la  figura  9.5.  Es  facil  probar  la  hipotesis  de  que  no  existe,  en  la  regresion,  una 
discontinuidad  en  el  valor  del  umbral  X*  al  observar  la  significance  estadistica  del  coeficiente  de 
pendiente  diferencial  estimado  A2  (vease  la  figura  9.6). 

A  proposito,  la  regresion  lineal  por  segmentos  que  acabamos  de  exponer  ejemplifica  una  clase 
mas  general  de  funciones  conocidas  como  funciones  “spline”.18 


FIGURA  9.6 

Parametros  de  la  regresion 
lineal  por  segmentos. 


Y 


X  (ventas) 


17  Sin  embargo,  tal  vez  no  siempre  sea  facil  identificar  el  valor  del  umbral.  Un  enfoque  ad  hoc  consiste  en 
graficar  la  variable  dependiente  frente  a  la(s)  variable(s)  explicativa(s)  y  observar  si  parece  haber  un  cambio 
pronunciado  en  la  relacion  despues  de  un  valor  dado  de  X  (por  ejemplo,  X*).  Un  enfoque  analftico  para 
hallar  el  punto  de  ruptura  se  encuentra  en  los  llamados  modelos  de  regresion  cambiantes.  Pero  se  trata 
un  tema  avanzado,  y  acerca  del  cual  hay  un  analisis  clasico  en  Thomas  Fomby,  R.  Carter  Hill  y  Stanley  John¬ 
son,  Advanced  Econometric  Methods,  Springer- Verlag,  Nueva  York,  1984,  capftulo  14. 

18  Hay  una  exposicion  sencilla  de  las  funciones  "spline"  (por  ejemplo,  los  polinomios  por  segmentos  de 
orden  k )  en  Douglas  C.  Montgomery  y  Elizabeth  A.  Peck,  Introduction  to  Linear  Regression  Analysis,  John 
Wiley  &  Sons,  3a.  ed.,  Nueva  York,  2001,  pp.  228-230. 
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EJEMPLO  9.7 

Costo  total  en 
relacion  con  la 
produccion 


Como  ejemplo  de  la  aplicacion  de  la  regresion  lineal  por  segmentos,  considere  los  datos  hipo- 
teticos  de  costo  total-produccion  total  presentados  en  la  tabla  9.6.  Se  dice  que  el  costo  total 
puede  cambiar  su  pendiente  al  alcanzar  un  nivel  de  produccion  de  5  500  unidades. 

Si  Y  en  (9.8.4)  representa  el  costo  total  y  X  la  produccion  total,  obtenemos  los  siguientes 
resultados: 

Yi=  -145.72  +  0.2791  X,  4-  0.0945(X,  -  X*)D, 

t=  (-0.8245)  (6.0669)  (1.1447)  (9.8.4) 

R2  =  0.9737  X*  =  5  500 

Como  muestran  estos  resultados,  el  costo  marginal  de  produccion  es  de  cerca  de  28  centavos 
de  dolar  por  unidad,  y  aunque  este  es  de  cerca  de  37  centavos  (28  +  9)  para  la  produccion 
por  encima  de  5  500  unidades,  la  diferencia  entre  ambos  no  es  estadfsticamente  significativa, 
pues  la  variable  dicotoma  no  es  significativa,  por  ejemplo,  en  el  nivel  de  5%.  Para  todos  los  fi¬ 
nes  practicos,  entonces,  podemos  efectuar  la  regresion  del  costo  total  sobre  la  produccion  total 
al  eliminar  la  variable  dicotoma. 


TABLA  9.6 

Datos  hipoteticos  sobre 
produccion  y  costo 
total 


Costo  total,  dolares 

256 
414 
634 
778 
1  003 

1  839 

2  081 
2  423 
2  734 
2  914 


Unidades  de  produccion 

1  000 
2  000 

3  000 

4  000 

5  000 

6  000 

7  000 

8  000 
9  000 

10  000 


9.9  Modelos  de  regresion  con  datos  en  panel 


Recuerde  que  en  el  capitulo  1  analizamos  una  serie  de  datos  disponibles  para  el  analisis  emplrico, 
como  los  transversales ,  las  series  de  tiempo,  los  agrupados  (una  combinacion  de  series  de  tiempo 
y  datos  transversales)  y  los  datos  en  panel.  La  tecnica  de  la  variable  dicotoma  se  extiende  sin 
problemas  a  los  datos  agrupados  y  en  panel.  Como  los  datos  en  panel  son  cada  vez  mas  populares 
en  el  trabajo  aplicado,  analizaremos  este  tema  con  mas  detalle  en  el  capitulo  16. 


9.10  Algunos  aspectos  tecnicos  de  la  tecnica  con 
variables  dicotomas 

Interpretacion  de  variables  dicotomas 
en  regresiones  semilogantmicas 

En  el  capitulo  6  vimos  los  modelos  log-lin,  donde  la  regresada  es  logaritmica  y  las  regresoras  son 
lineales.  En  tales  modelos,  los  coeficientes  de  las  pendientes  de  las  regresoras  indican  la  semi- 
elasticidad,  o  el  cambio  porcentual  en  la  regresada  debido  a  una  unidad  de  cambio  en  la  regre- 
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sora:  esto  solo  se  ample  si  la  regresora  es  aiantitativa.  <^Que  sucede  si  una  regresora  es  una 
variable  dicotoma?  Para  ser  especificos,  considere  el  siguiente  modelo: 

In  Yi  =  /3,  +p2Dl+ui  (9.10.1) 

donde  Y  —  tasa  de  salario  por  hora  (S)  y  D  —  1  para  mujer  y  0  para  hombre. 

<,C6mo  interpretamos  un  modelo  asi?  Si  suponemos  que  E(u,)  —  0  obtenemos: 

Funcion  salario  para  trabajadores: 

E{\nYi  |  A  =  0)  =  Pi  (9.10.2) 

Funcion  salario  para  trabajadoras: 

E{\nYi\  A ,  =  l)  =  Pi+h  (9.10.3) 

Por  tanto,  el  intercepto  proporciona  el  logaritmo  de  los  ingresos  medios  por  hora,  y  el  coefi- 
ciente  de  la  “pendiente”,  la  diferencia  entre  el  logaritmo  de  los  ingresos  medios  por  hora  entre 
hombres  y  mujeres.  Lo  anterior  representa  una  forma  mas  bien  extrana  de  enunciar  las  cosas. 
Pero  si  tomamos  el  antilogaritmo  de  f}\,  1°  que  ahora  tenemos  no  son  los  salarios  medios  por  hora 
de  los  trabajadores,  sino  la  mediana  de  los  salarios.  Como  se  sabe,  media,  mediana  y  moda  son 
las  tres  medidas  de  tendencia  central  de  una  variable  aleatoria.  Y  si  tomamos  el  antilogaritmo  de 
iP\  +  Pi),  obtenemos  la  mediana  de  los  salarios  por  hora  de  las  trabajadoras. 


EJEMPLO  9.8 

Logaritmo  de  sala¬ 
rios  por  hora  en  re¬ 
lation  con  el  sexo 


Para  ilustrar  (9.10.1)  empleamos  los  datos  implfcitos  en  el  ejemplo  9.2.  Los  resultados  de  la 
regresion  basada  en  528  observaciones  son  los  siguientes: 

IrTV/  =  2.1763  -  0.2437D, 

t=  (72.2943)*  (-5.5048)*  (9.10.4) 

R2  =  0.0544 


donde  *  indica  valores  p  que  son  practicamente  cero. 

Con  el  antilogaritmo  de  2.1  763  tenemos  8.81  36  ($),  que  es  la  mediana  de  los  ingresos  por 
hora  de  los  trabajadores,  y  si  tomamos  el  antilogaritmo  de  [(2.1  763  —  0.2437)  =  1 .92857],  ob¬ 
tenemos  6.8796  ($),  que  es  la  mediana  de  los  ingresos  por  hora  de  las  trabajadoras.  Por  tanto,  la 
mediana  de  los  ingresos  por  hora  de  las  trabajadoras  es  menor  por  casi  21 .94%  en  comparacion 
con  sus  contrapartes  masculinos  [(8.81  36  —  6.8796)/8.81  36]. 

Vale  la  pena  notar  que  es  posible  obtener  la  semielasticidad  para  una  regresora  dicotoma  de 
manera  directa,  mediante  el  proceso  propuesto  por  Halvorsen  y  Palmquist.19  Tome  el  antiloga¬ 
ritmo  (base  e)  del  coeficiente  estimado  de  la  variable  dicotoma,  reste  1  y  multiplique  la  diferencia 
por  100.  (Abordamos  la  logica  de  este  procedimiento  en  el  apendice  9.A.1 .)  En  consecuencia,  si 
tomamos  el  antilogaritmo  de  —0.2437  obtendremos  0.78366.  Al  restar  1  de  lo  anterior  tenemos 
—0.21 63,  y  despues  de  multiplicar  esta  cifra  por  1 00,  —21 .63%,  lo  cual  indica  que  la  mediana 
del  salario  de  una  trabajadora  (D  =  1)  es  menor  que  la  de  su  contraparte  masculina  por  aproxi- 
madamente  21 .63%,  lo  mismo  que  obtuvimos  antes,  salvo  errores  de  redondeo. 


Variables  dicotomas  y  heteroscedasticidad 

Examinemos  de  nuevo  la  regresion  de  ahorro-ingreso  para  Estados  Unidos  de  1970  a  1981  y 
1982  a  1995,  asi  como,  en  conjunto,  de  1970  a  1995.  Al  probar  la  estabilidad  estructural  mediante 
la  tecnica  de  la  variable  dicotoma,  supusimos  que  la  varianza  del  error  var  (u\,)  —  var  (un)  —  a2. 


19  Robert  Halvorsen  y  Raymond  Palmquist,  "The  Interpretation  of  Dummy  Variables  in  Semilogarithmic 
Equations",  American  Economic  Review,  vol.  70,  num.  3,  pp.  474-475. 
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es  decir,  que  las  varianzas  del  error  en  los  dos  periodos  eran  las  mismas.  Tambien  supusimos  lo 
anterior  para  la  prueba  de  Chow.  Si  tal  supuesto  no  es  valido  — es  decir,  si  las  varianzas  del  error 
en  los  dos  subperiodos  son  distintas —  es  muy  probable  que  se  hagan  deducciones  incorrectas. 
Asi,  primero  debemos  verificar  la  igualdad  de  las  varianzas  en  el  subperiodo,  mediante  tecnicas 
estadlsticas  apropiadas.  Aunque  analizaremos  con  mayor  profundidad  este  tema  mas  adelante 
en  el  capitulo  sobre  heteroscedasticidad,  en  el  capitulo  8  vimos  que  la  prueba  F  puede  utilizarse 
para  este  proposito.20  (Vease  el  analisis  de  la  prueba  de  Chow  en  ese  capitulo.)  Como  demostra- 
mos  ahi,  parece  que  la  varianza  del  error  para  los  dos  periodos  no  es  la  misma.  En  consecuencia, 
los  resultados  de  la  prueba  de  Chow  y  la  tecnica  de  las  variables  dicotomas  presentadas  en  este 
apartado  tal  vez  no  sean  del  todo  confiables.  Desde  luego,  el  proposito  aqui  es  ilustrar  diversas 
tecnicas  para  resolver  el  problema  (por  ejemplo,  el  problema  de  la  estabilidad  estructural).  En 
alguna  aplicacion  particular,  tales  tecnicas  quiza  no  resulten  validas.  Pero  lo  anterior  tambien 
sucede  con  la  mayoria  de  las  tecnicas  estadisticas.  Por  supuesto,  hay  que  tomar  las  medidas  co- 
rrectivas  apropiadas  a  fin  de  resolver  el  problema,  como  mas  tarde  se  hara  en  el  capitulo  sobre 
heteroscedasticidad  (no  obstante,  consulte  el  ejercicio  9.28). 


Variables  dicotomas  y  autocorrelacion 

Ademas  de  la  homoscedasticidad,  el  modelo  de  regresion  lineal  clasico  supone  que  el  termino 
de  error  en  los  modelos  de  regresion  no  esta  correlacionado.  Pero,  (',que  sucede  si  esto  no  es  asi, 
sobre  todo  en  los  modelos  que  implican  regresoras  dicotomas?  En  vista  de  que  analizaremos  a 
profundidad  el  tema  de  la  autocorrelacion  en  el  capitulo  respectivo,  diferiremos  la  respuesta  hasta 
ese  momento. 


^Que  sucede  si  la  variable  dependiente  es  dicotoma? 

Hasta  ahora  hemos  considerado  modelos  en  que  la  regresada  es  cuantitativa  y  las  regresoras  son 
cuantitativas  o  cualitativas  o  de  ambos  tipos.  Pero  existen  situaciones  en  que  la  regresada  tambien 
puede  ser  una  variable  cualitativa  o  dicotoma.  Considere  por  ejemplo  la  decision  de  un  trabaja- 
dor  de  participar  en  la  fuerza  laboral.  La  decision  de  participar  es  del  tipo  si  o  no.  Sera  si,  si  la 
persona  decide  participar,  y  no,  en  cualquier  otro  caso.  Por  tanto,  la  variable  participation  en 
la  fuerza  laboral  es  una  variable  dicotoma.  Desde  luego,  la  decision  de  participar  en  la  fuerza 
laboral  depende  de  diversos  factores,  como  la  tasa  de  salario  inicial,  la  escolaridad  y  las  condi- 
ciones  del  mercado  laboral  (como  las  mide  la  tasa  de  desempleo). 

Tod  avia  podemos  utilizar  los  MCO  para  estimar  los  modelos  de  regresion  en  los  que  la  regre¬ 
sada  es  dicotoma?  Si,  mecanicamente  es  posible.  Pero  tales  modelos  presentan  varios  problemas 
estadisticos.  Y  como  hay  opciones  para  la  estimation  por  MCO  que  no  provocan  tales  inconve- 
nientes,  veremos  este  tema  en  un  capitulo  posterior  (vease  el  capitulo  1 5  sobre  los  modelos  logit 
y  probit).  En  ese  capitulo  tambien  estudiaremos  los  modelos  en  los  cuales  la  regresada  tiene  mas 
de  dos  categorias;  por  ejemplo,  la  decision  de  ir  al  trabajo  en  automovil,  autobus  o  metro;  o  la 
decision  de  trabajartiempo  parcial,  completo  o  no  trabajar  en  absoluto.  Tales  modelos  se  conocen 
como  modelos  con  variable  dependiente  policotomas,  en  contraste  con  los  modelos  con  varia¬ 
bles  dependientes  dicotomas,  en  los  que  la  variable  dependiente  tiene  solo  dos  categorias. 


20  El  procedimiento  de  la  prueba  de  Chow  se  puede  realizar  incluso  en  presencia  de  heteroscedasticidad, 
pero  entonces  se  tendra  que  utilizar  la  prueba  de  Wald.  Los  calculos  matematicos  en  los  que  se  basa  esta 
prueba  son  un  tanto  complejos.  No  obstante,  en  el  capftulo  sobre  heteroscedasticidad  volveremos  a  este 
tema. 
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9.11  Temas  para  estudio  posterior 


En  la  teoria  se  analizan  diversos  temas  relativamente  avanzados  que  tienen  que  ver  con  las  varia¬ 
bles  dicotomas,  como  1)  modelos  de  parametros  aleatorios  o  variables,  2)  modelos  de  regre¬ 
sion  cambiantes  y  3)  modelos  de  desequilibrio. 

En  los  modelos  de  regresion  considerados  en  este  texto  se  supone  que  los  parametros,  las  fi, 
son  desconocidos  pero  fijos.  Los  modelos  de  coeficientes  aleatorios  — de  los  cuales  hay  diversas 
versiones —  suponen  que  las  /I  tambien  pueden  ser  aleatorias.  El  trabajo  principal  de  referencia 
en  esta  area  es  el  de  Swamy.21 

En  el  modelo  de  variable  dicotoma  que  utiliza  interceptos  diferenciales  al  igual  que  pendientes 
diferenciales  se  supone  implicitamente  que  se  conoce  el  punto  de  ruptura.  Por  tanto,  en  el  ejem- 
plo  de  ahorro-ingreso  de  1970  a  1995  se  dividio  el  lapso  en  1970-1981  y  1982-1995,  losperiodos 
anterior  y  posterior  de  la  recesion,  en  la  creencia  de  que  la  recesion  de  1982  cambio  la  relacion 
entre  ahorro  e  ingreso.  A  veces  no  es  sencillo  senalar  el  momento  de  la  ruptura.  La  tecnica  de  mo¬ 
delos  de  regresion  cambiantes  maneja  esta  situacion  al  permitir  que  el  punto  de  ruptura  sea  en  si 
mismo  una  variable  aleatoria  y,  mediante  un  proceso  iterativo,  determinar  cuando  pudo  acontecer 
realmente  la  ruptura.  El  trabajo  original  en  esta  area  se  atribuye  a  Goldfeld  y  Quandt.22 

Se  requieren  tecnicas  especiales  de  estimacion  para  lo  que  se  conoce  como  situaciones  de 
desequilibrio,  es  decir,  situaciones  en  donde  los  mercados  no  son  claros  (la  demanda  no  es  igual 
a  la  oferta).  El  ejemplo  clasico  es  el  de  la  demanda  y  oferta  de  un  commodity  (bien  no  diferen- 
ciado).  La  demanda  de  un  commodity  es  funcion  de  su  precio  y  de  otras  variables,  y  su  oferta  es 
tambien  funcion  de  su  precio  y  de  otras  variables,  algunas  de  las  cuales  son  diferentes  de  las  que 
forman  parte  de  la  funcion  de  demanda.  Ahora,  la  cantidad  en  realidad  comprada  y  vendida  del 
commodity  no  necesariamente  sera  igual  a  la  que  se  obtiene  al  igualar  la  demanda  a  la  oferta,  lo 
que  genera  un  desequilibrio.  Para  un  analisis  completo  de  modelos  de  desequilibrio,  el  lector 
puede  consultar  a  Quandt.23 


9.12  Ejemplo  para  concluir 


Para  concluir  este  capitulo  presentamos  un  ejemplo  que  ilustra  algunos  puntos.  La  tabla  9.7  pro- 
porciona  datos  sobre  una  muestra  de  261  trabajadores  en  una  ciudad  industrial  del  sur  de  India 
en  1990. 

Las  variables  se  definen  como  sigue: 

IS  =  ingreso  por  salario  semanal  en  rupias 
Edad  =  edad  en  anos 

Z)sex0  =  1  para  trabajadores  y  0  para  trabajadoras 

DE2  —  variable  dicotoma  que  toma  el  valor  de  1  para  trabajadores  con  nivel  de  escolaridad  hasta 
primaria 

DEt,  —  variable  dicotoma  que  toma  el  valor  de  1  para  trabajadores  con  nivel  de  escolaridad  hasta 
secundaria 

DE4  =  variable  dicotoma  que  toma  el  valor  de  1  para  trabajadores  con  nivel  de  escolaridad 
superior  al  nivel  secundaria 

DPT  —  variable  dicotoma  que  toma  el  valor  de  1  para  trabajadores  con  empleo  permanente  y  0 
para  eventuales 


21  P.A.V.B.  Swamy,  Statistical  Inference  in  Random  Coefficient  Regression  Models,  Springer-Verlag,  Berlin,  1971 . 

22  S.  Goldfeld  y  R.  Quandt,  Nonlinear  Methods  in  Econometrics,  North  Holland,  Amsterdam,  1 972. 

23  Richard  E.  Quandt,  The  Econometrics  of  Disequilibrium,  Basil  Blackwell,  Nueva  York,  1 988. 


TAB  LA  9.7  Indian  wage  Earners,  1990 


IS 

EDAD 

de2 

D£3 

de4 

DPT 

Dsexo 

IS 

EDAD 

de2 

D£3 

de4 

DPT 

Dsexo 

120 

57 

0 

0 

0 

0 

0 

120 

21 

0 

0 

0 

0 

0 

224 

48 

0 

0 

1 

1 

0 

25 

18 

0 

0 

0 

0 

1 

132 

38 

0 

0 

0 

0 

0 

25 

11 

0 

0 

0 

0 

1 

75 

27 

0 

1 

0 

0 

0 

30 

38 

0 

0 

0 

1 

1 

111 

23 

0 

1 

0 

0 

1 

30 

17 

0 

0 

0 

1 

1 

127 

22 

0 

1 

0 

0 

0 

122 

20 

0 

0 

0 

0 

0 

30 

18 

0 

0 

0 

0 

0 

288 

50 

0 

1 

0 

1 

0 

24 

12 

0 

0 

0 

0 

0 

75 

45 

0 

0 

0 

0 

1 

119 

38 

0 

0 

0 

1 

0 

79 

60 

0 

0 

0 

0 

0 

75 

55 

0 

0 

0 

0 

0 

85.3 

26 

1 

0 

0 

0 

1 

324 

26 

0 

1 

0 

0 

0 

350 

42 

0 

1 

0 

1 

0 

42 

18 

0 

0 

0 

0 

0 

54 

62 

0 

0 

0 

1 

0 

100 

32 

0 

0 

0 

0 

0 

110 

23 

0 

0 

0 

0 

0 

136 

41 

0 

0 

0 

0 

0 

342 

56 

0 

0 

0 

1 

0 

107 

48 

0 

0 

0 

0 

0 

77.5 

19 

0 

0 

0 

1 

0 

50 

16 

1 

0 

0 

0 

1 

370 

46 

0 

0 

0 

0 

0 

90 

45 

0 

0 

0 

0 

0 

156 

26 

0 

0 

0 

1 

0 

377 

46 

0 

0 

0 

1 

0 

261 

23 

0 

0 

0 

0 

0 

150 

30 

0 

1 

0 

0 

0 

54 

16 

0 

1 

0 

0 

0 

162 

40 

0 

0 

0 

0 

0 

130 

33 

0 

0 

0 

0 

0 

18 

19 

1 

0 

0 

0 

0 

112 

27 

1 

0 

0 

0 

0 

128 

25 

1 

0 

0 

0 

0 

82 

22 

1 

0 

0 

0 

0 

47.5 

46 

0 

0 

0 

0 

1 

385 

30 

0 

1 

0 

1 

0 

135 

25 

0 

1 

0 

0 

0 

94.3 

22 

0 

0 

1 

1 

1 

400 

57 

0 

0 

0 

1 

0 

350 

57 

0 

0 

0 

1 

0 

91.8 

35 

0 

0 

1 

1 

0 

108 

26 

0 

0 

0 

0 

0 

140 

44 

0 

0 

0 

1 

0 

20 

14 

0 

0 

0 

0 

0 

49.2 

22 

0 

0 

0 

0 

0 

53.8 

14 

0 

0 

0 

0 

1 

30 

19 

1 

0 

0 

0 

0 

427 

55 

0 

0 

0 

1 

0 

40.5 

37 

0 

0 

0 

0 

1 

18 

12 

0 

0 

0 

0 

0 

81 

20 

0 

0 

0 

0 

0 

120 

38 

0 

0 

0 

0 

0 

105 

40 

0 

0 

0 

0 

0 

40.5 

17 

0 

0 

0 

0 

0 

200 

30 

0 

0 

0 

0 

0 

375 

42 

1 

0 

0 

1 

0 

140 

30 

0 

0 

0 

1 

0 

120 

34 

0 

0 

0 

0 

0 

80 

26 

0 

0 

0 

0 

0 

175 

33 

1 

0 

0 

1 

0 

47 

41 

0 

0 

0 

0 

1 

50 

26 

0 

0 

0 

0 

1 

125 

22 

0 

0 

0 

0 

0 

100 

33 

1 

0 

0 

1 

0 

500 

21 

0 

0 

0 

0 

0 

25 

22 

0 

0 

0 

1 

1 

100 

19 

0 

0 

0 

0 

0 

40 

15 

0 

0 

0 

1 

0 

105 

35 

0 

0 

0 

0 

0 

65 

14 

0 

0 

0 

1 

0 

300 

35 

0 

1 

0 

1 

0 

47.5 

25 

0 

0 

0 

1 

1 

115 

33 

0 

1 

0 

1 

1 

163 

25 

0 

0 

0 

1 

0 

103 

27 

0 

0 

1 

1 

1 

175 

50 

0 

0 

0 

1 

1 

190 

62 

1 

0 

0 

0 

0 

150 

24 

0 

0 

0 

1 

1 

62.5 

18 

0 

1 

0 

0 

0 

163 

28 

0 

0 

0 

1 

0 

50 

25 

1 

0 

0 

0 

0 

163 

30 

1 

0 

0 

1 

0 

273 

43 

0 

0 

1 

1 

1 

50 

25 

0 

0 

0 

1 

1 

175 

40 

0 

1 

0 

1 

0 

395 

45 

0 

1 

0 

1 

0 

117 

26 

1 

0 

0 

1 

0 

175 

40 

0 

0 

0 

1 

1 

950 

47 

0 

0 

1 

0 

0 

87.5 

25 

1 

0 

0 

0 

0 

100 

30 

0 

0 

0 

0 

0 

75 

18 

0 

0 

0 

0 

0 

140 

30 

0 

0 

0 

0 

0 

163 

24 

0 

0 

0 

1 

0 

97 

25 

0 

1 

0 

0 

0 

325 

55 

0 

0 

0 

1 

0 

150 

36 

0 

0 

0 

0 

0 

121 

27 

0 

1 

0 

0 

0 

25 

28 

0 

0 

0 

0 

1 

600 

35 

1 

0 

0 

0 

0 

15 

13 

0 

0 

0 

0 

1 

52 

19 

0 

0 

0 

0 

0 

131 

55 

0 

0 

0 

0 

0 

117 

28 

1 

0 

0 

0 

0 
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La  categoria  de  referencia  es  trabaj adores  sin  educacion  primaria  y  con  empleo  eventual.  El 
interes  se  centra  en  la  relation  entre  salario  semanal  y  edad,  sexo,  nivel  de  escolaridad  y  titulari- 
dad  de  empleo.  Con  este  fin,  estimamos  el  siguiente  modelo  de  regresion: 


In  IS,  —  Pi  +  /82EDAD,  +  /13Dsex0  +  P4DE2  +  P5DE2  +  fifrDE^  +  j3 -jDPT  +  w,- 


En  la  linea  de  la  bibliografia  de  economia  laboral,  el  logaritmo  (natural)  de  los  salarios  se  expresa 
como  funcion  de  las  variables  explicativas.  Como  senalamos  en  el  capitulo  6,  la  distribution  del 
tamano  de  las  variables,  como  los  salarios,  tiende  a  ser  asimetrica;  las  transformaciones  logarit- 
micas  de  dichas  variables  reducen  tanto  la  asimetria  como  la  heteroscedasticidad. 

Con  EViews6  obtenemos  los  siguientes  resultados  de  regresion: 


Variable  dependiente :  Ln(IS) 
Metodo:  Minimos  cuadrados 
Muestra:  1  261 

Observaciones  incluidas :  261 


Coeficiente  Error  estandar  Estadistico  t  Probabilidad 


c 

3 . 706872 

0 . 113845 

32 . 56055 

0 

.0000 

EDAD 

0 . 026549 

0 .003117 

8 . 516848 

0 

.0000 

■Dsexo 

-0.656338 

0 .088796 

-7.391529 

0 

.0000 

de2 

0 . 113862 

0 .098542 

1 . 155473 

0 

.2490 

de3 

0.412589 

0 .096383 

4.280732 

0 

.0000 

de4 

0 . 554129 

0 . 155224 

3 . 569862 

0 

.0004 

DPT 

0 . 558348 

0 . 079990 

6 . 980248 

0 

.0000 

R  cuadrada 

0 . 534969 

Media  de  la  variable  dependiente 

4 .793390 

R  cuadrada 

ajustada 

0 . 523984 

Desviacion  estandar  de  la 

Error  estandar  de  la  regresion 

0 .575600 

variable  dependiente 

0 . 834277 

Suma  de  cuadrados  residual 

84 . 15421 

Criterio  de  informacion  de  Akaike 

1 . 759648 

Log  verosimilitud 

-222 . 6340 

Criterio  de  Schwarz 

1 . 855248 

Estadistico 

F 

48 .70008 

Criterio  de  Hannan-Quinn 

1 .798076 

Probabilidad  (estadistico  F) 

0 . 000000 

Estadistico  de  Durbin-Watson 

1 . 853361 

Estos  resultados  muestran  que  el  logaritmo  de  los  salarios  se  relaciona  positivamente  con  la  edad, 
nivel  de  escolaridad  y  permanencia  en  el  empleo,  pero  negativamente  con  el  sexo,  lo  que  no  es 
sorprendente.  Aunque  al  parecer  no  existe  diferencia  practica  entre  los  salarios  semanales  de  los 
trabajadores  con  educacion  primaria  completa  y  sin  terminar,  los  de  los  trabajadores  con  educa¬ 
cion  secundaria  son  mas  altos,  y  mucho  mas  los  de  los  trabajadores  con  educacion  superior. 

Los  coeficientes  de  las  variables  dicotomas  deben  interpretarse  como  valores  diferenciales  de 
la  categoria  de  referencia.  Asi,  el  coeficiente  de  la  variable  DPT  indica  que  los  trabajadores  con 
empleo  permanente  ganan,  en  promedio,  mas  dinero  que  los  trabajadores  eventuales. 

Como  vimos  en  el  capitulo  6,  en  un  modelo  log-lineal  (la  variable  dependiente  en  la  forma 
logaritmica  y  las  variables  explicativas  en  la  forma  lineal),  el  coeficiente  de  la  pendiente  de  una 
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variable  explicativa  representa  semielasticidad,  es  decir,  da  el  cambio  relativo  o  porcentual  en 
la  variable  dependiente  por  cada  cambio  unitario  en  el  valor  de  la  variable  explicativa.  Sin  em¬ 
bargo,  como  se  anoto  en  el  texto,  cuando  la  variable  explicativa  es  dicotoma,  hay  que  tener  mucho 
cuidado.  Aqui  se  debe  tomar  el  antilogaritmo  del  coeficiente  estimado  de  la  variable  dicotoma, 
restarle  1  y  multiplicar  el  resultado  por  100.  Por  consiguiente,  para  averiguar  el  cambio  porcen¬ 
tual  en  el  salario  semanal  de  los  trabajadores  con  empleo  permanente  en  comparacion  con  los 
eventuales,  tomamos  el  antilogaritmo  del  coeficiente  de  DPTO. 558348,  restamos  1  y  luego  multi- 
plicamos  la  diferencia  por  100.  En  el  ejemplo  en  cuestion,  esto  resulta  (e0-558348  —  1)  =  (1.74  7  7  8 
—  1)  =  0.74778,  o  casi  75%.  Se  recomienda  al  lector  calcular  estos  cambios  porcentuales  para 
las  demas  variables  dicotomas  del  modelo. 

Los  resultados  muestran  que  el  sexo  y  el  nivel  de  escolaridad  tienen  efectos  diferenciales  en 
las  percepciones  semanales.  (,Es  posible  una  interaccion  entre  sexo  y  nivel  de  escolaridad?  <,Los 
trabajadores  con  nivel  de  escolaridad  alto  ganan  mejores  salarios  semanales  que  las  trabajadoras 
con  el  mismo  nivel  de  escolaridad?  Para  examinar  esta  posibilidad  extendemos  la  anterior  regre¬ 
sion  de  salarios  para  anadir  la  interaccion  entre  sexo  y  nivel  de  escolaridad.  Los  resultados  de  la 
regresion  son  los  siguientes: 


Variable  dependiente:  Ln(IS) 
Metodo :  Minimos  cuadrados 
Muestra:  1  261 

Observaciones  incluidas :  261 


Coeficiente 

Error  estandar 

Estadistico  t 

Probabilidad 

c 

3 . 717540 

0 . 114536 

32.45734 

0 . 0000 

EDAD 

0 . 027051 

0 . 003133 

8 . 634553 

0 . 0000 

A-;exo 

-0 . 758975 

0 . 110410 

-6 . 874148 

0 . 0000 

de2 

0 . 088923 

0 . 106827 

0 . 832402 

0.4060 

de3 

0 .350574 

0 . 104309 

3 .360913 

0 . 0009 

DEi 

0.438673 

0 . 186996 

2 . 345898 

0 . 0198 

Dsexo*  DE2 

0 . 114908 

0 .275039 

0.417788 

0 . 6765 

■Dsexo*  DE3 

0 .391052 

0.259261 

1 . 508337 

0 . 1327 

Dsexo*  DE4 

0 .369520 

0.313503 

1 . 178681 

0.2396 

DPT 

0 . 551658 

0 . 080076 

6 . 889198 

0 . 0000 

R  cuadrada 

0 . 540810 

Media  de  la  variable  dependiente 

4 .793390 

R  cuadrada 

ajustada 

0 . 524345 

Desviacion  estandar  de  la 

Error  estandar  de  la  regresion 

0 .575382 

variable  dependiente 

0 . 834277 

Suma  de  cuadrados  residual 

83 . 09731 

Criterio  de  informacion  de 

Aka ike 

1 . 769997 

Log  verosimilitud 

-220 . 9847 

Criterio  de  Schwarz 

1 . 906569 

Estadistico  F 

32 . 84603 

Criterio  de  Hannan-Quinn 

1 . 824895 

Probabilidad  (estadistico  F) 

0 . 000000 

Estadistico  de  Durbin-Watson 

1 . 856588 

Aunque  las  variables  dicotomas  de  interaccion  revelan  cierta  interaccion  entre  sexo  y  nivel 
de  escolaridad,  el  efecto  no  es  estadisticamente  significativo,  pues  ningun  coeficiente  de  interac¬ 
cion  es  estadisticamente  significativo  por  si  solo. 
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Es  interesante  notar  que,  si  eliminamos  las  variables  dicotomas  de  escolaridad  pero  conserva- 
mos  las  de  interaccion,  obtenemos  los  siguientes  resultados: 


Variable  dependiente:  LOG (IS) 
Metodo:  Minimos  cuadrados 
Muestra:  1  261 

Observaciones  incluidas :  261 


Coeficiente  Error  estandar  Estadistico  t  Probabilidad 


c 

3 . 836483 

0 .106785 

35 . 92725 

0 

.0000 

EDAD 

0 . 025990 

0 .003170 

8 . 197991 

0 

.0000 

A-iexo 

-0 . 868617 

0 .106429 

-8 . 161508 

0 

.0000 

Dsexo*  DE2 

0.200823 

0.259511 

0 . 773851 

0 

.4397 

Dsexo*C®3 

0 . 716722 

0.245021 

2 . 925140 

0 

.0038 

Dsexo*  DEi 

0 . 752652 

0.265975 

2 . 829789 

0 

.0050 

DPT 

0 . 627272 

0 . 078869 

7 . 953332 

0 

.0000 

R  cuadrada 

0 .514449 

Media  de  la  variable  dependiente 

4 .793390 

R  cuadrada 

ajustada 

0 .502979 

Desviacion  estandar  de  la 

Error  estandar  de  la  regresion 

0.488163 

variable  dependiente 

0 . 834277 

Suma  de  cuadrados  residual 

87 .86766 

Criterio  de  informacion  de  Akaike 

1 .802828 

Log  verosimilitud 

-228.2691 

Criterio  de  Schwarz 

1 .898429 

Estadistico 

F 

44 . 85284 

Criterio  de  Hannan-Quinn 

1 . 841257 

Probabilidad  (estadistico  F ) 

0 . 000000 

Estadistico  de  Durbin-Watson 

1 . 873421 

Ahora  parece  que  las  variables  dicotomas  de  escolaridad,  por  si  solas,  no  tienen  efecto  en  el  sa- 
lario  semanal,  pero  introducidas  en  formato  interactive  si  producen  efectos.  Como  muestra  este 
ejercicio,  hay  que  tener  cuidado  con  las  variables  dicotomas.  Como  ejercicio,  el  lector  debera 
averiguar  si  las  variables  dicotomas  de  escolaridad  interactuan  con  DPT. 


Resumen  y 
conclusiones 


1.  Las  variables  dicotomas  con  valores  de  1  y  0  (o  sus  transformaciones  lineales)  son  un  medio 
de  introducir  regresoras  cualitativas  en  el  analisis  de  regresion. 

2.  Las  variables  dicotomas  son  un  mecanismo  de  clasificacion  de  datos,  pues  permiten  dividir 
una  muestra  en  diversos  subgrupos  con  base  en  cualidades  o  atributos  (sexo,  estado  civil,  raza, 
religion,  etc.)  e  impUcitamente  permiten  efectuar  regresiones  individuales  para  cada  subgrupo. 
Si  hay  diferencias  en  la  respuesta  de  la  variable  regresada  a  la  variation  en  las  variables  cuan- 
titativas  en  los  diversos  subgrupos,  estas  se  reflejaran  en  las  diferencias  en  los  interceptos  o  en 
los  coeficientes  de  las  pendientes,  o  en  ambos,  de  las  regresiones  de  los  diversos  subgrupos. 

3.  Aunque  es  una  herramienta  versatil,  la  tecnica  de  variable  dicotoma  debe  manejarse  con  cui¬ 
dado.  Primero ,  si  la  regresion  contiene  un  termino  constante,  el  numero  de  variables  dicoto¬ 
mas  debe  ser  menor  que  el  numero  de  clasificaciones  de  cada  variable  cualitativa.  Segundo, 
el  coeficiente  que  acompana  las  variables  dicotomas  siempre  debe  interpretarse  en  relation 
con  el  grupo  base  o  de  referencia,  es  decir,  con  el  grupo  que  adquiere  el  valor  de  cero.  La  base 
elegida  depende  del  proposito  de  la  investigation  en  curso.  Finalmente,  si  un  modelo  tiene 
diversas  variables  cualitativas  con  diversas  categorias,  la  introduction  de  las  variables  dicoto¬ 
mas  puede  consumir  un  gran  numero  de  grados  de  libertad.  Por  consiguiente,  siempre  se  debe 
ponderar  el  numero  de  variables  dicotomas  que  se  van  a  introducir  respecto  del  numero  total 
de  observaciones  disponible  para  el  analisis. 
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4.  En  este  capitulo  se  consideraron  solo  algunas  de  las  diversas  aplicaciones  de  la  tecnica  de 
variables  dicotomas:  1)  comparacion  de  dos  (o  mas)  regresiones,  2)  desestacionalizacion 
de  datos  de  series  de  tiempo,  3)  variables  dicotomas  interactivas,  4)  interpretacion  de  las 
variables  dicotomas  en  los  modelos  semilogaritmicos  y  5)  modelos  de  regresion  lineal  por 
segmentos. 

5.  Tambien  recomendamos  mucho  tener  precaucion  al  utilizar  las  variables  dicotomas  en  situa- 
ciones  de  heteroscedasticidad  y  autocorrelacion.  Pero,  como  estudiaremos  estos  temas  con 
mucho  detalle  en  capitulos  subsecuentes,  abordaremos  esto  a  su  debido  tiempo. 


EJERCICIOS 


Preguntas 

9.1.  Si  cuenta  con  datos  mensuales  de  distintos  anos,  (',cuantas  variables  dicotomas  introducira 
para  probar  las  siguientes  hipotesis?: 

a)  Los  12  meses  del  ano  presentan  patrones  estacionales. 

b )  Solo  febrero,  abril,  junio,  agosto,  octubre  y  diciembre  presentan  patrones  estaciona¬ 
les. 

9.2.  Considere  los  siguientes  resultados  de  regresion  (las  razones  t  estan  entre  parentesis):* 

%  =  1  286  +  104.97X2/  —  0.026X3,+  1.20X4,+  O.69X5, 

t  =  (4.67)  (3.70)  (-3.80)  (0.24)  (0.08) 

- 1 9.47X6/  +  266.O6X7,  -  1 1 8.64X8,-  -  1 1 0.6 1X9, 

(-0.40)  (6.94)  (-3.04)  (-6.14) 

R2  =  0.383  n  =  1  543 


donde  Y — 

X2  = 
X3  = 
X4  = 

^5  = 
X6  = 

X7  = 

X8  = 
X9  — 


horas  de  trabajo  anuales  deseadas  por  la  esposa,  calculadas  como  horas  norma- 
les  de  trabajo  al  ano,  mas  las  semanas  invertidas  en  buscar  trabajo 
ingresos  promedio  reales  por  hora  despues  de  impuestos  de  la  esposa 
ingresos  anuales  reales  despues  de  impuestos  del  esposo  en  el  ano  anterior 
edad  de  la  esposa  en  anos 
anos  completos  de  escolaridad  de  la  esposa 

variable  de  actitud;  1  si  la  entrevistada  considera  correcto  que  una  mujer  trabaje 

si  asi  lo  desea  y  su  esposo  esta  de  acuerdo;  0  en  cualquier  otro  caso 

variable  de  actitud;  1  si  el  esposo  de  la  entrevistada  favorecio  que  su  esposa 

trabajara;  0  en  cualquier  otro  caso 

numero  de  hijos  menores  de  6  anos 

numero  de  hijos  de  6  a  13  anos 


a)  ,',Los  signos  de  los  coeficientes  de  las  diversas  regresoras  no  dicotomas  tienen  algun  sen- 
tido  economico?  Justifique  su  respuesta. 

b)  ,',C6imo  interpretaria  las  variables  dicotomas  X()  y  X7?  ,;Son  estadisticamente  significativas? 
Como  la  muestra  es  muy  grande,  tal  vez  se  utilice  la  regia  practica  “2  t”  para  responder  la 
ultima  pregunta. 

c)  ,',Por  que  cree  que,  en  este  estudio,  las  variables  edad  y  escolaridad  no  son  factores  signifi- 
cativos  en  la  decision  de  la  mujer  de  participar  en  la  fuerza  laboral? 


*  Jane  Leuthold,  "The  Effect  of  Taxation  on  the  Hours  Worked  by  Married  Women",  Industrial  Labor  Relations 
Review,  num.  4,  julio  de  1978,  pp.  520-526  (la  notacion  se  cambio  para  adaptarla  al  formato  del  libro). 
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TAB  LA  9.8 


Matriz  de  datos  para  la 
regresion  del  ejercicio 


9.3 


Fuente:  Damodar  Gujarati,  “The 
Behaviour  of  Unemployment  and 
Unfilled  Vacancies:  Great  Bri¬ 
tain,  1958-1971”,  The  Economic 
Journal,  vol.  82,  marzo  de  1972, 

p.  202. 


Tasa  de 

Tasa  de 

Ano 

desempleo 

puestos 

y 

TD, 

vacantes 

trimestre 

% 

V,  % 

D 

DV 

1 958-IV 

1.915 

0.510 

0 

0 

1959-1 

1.876 

0.541 

0 

0 

-II 

1.842 

0.541 

0 

0 

-III 

1.750 

0.690 

0 

0 

-IV 

1.648 

0.771 

0 

0 

1 960-1 

1.450 

0.836 

0 

0 

-II 

1.393 

0.908 

0 

0 

-III 

1.322 

0.968 

0 

0 

-IV 

1.260 

0.998 

0 

0 

1961-1 

1.171 

0.968 

0 

0 

-II 

1.182 

0.964 

0 

0 

-III 

1.221 

0.952 

0 

0 

-IV 

1.340 

0.849 

0 

0 

1962-1 

1.411 

0.748 

0 

0 

-II 

1.600 

0.658 

0 

0 

-III 

1.780 

0.562 

0 

0 

-IV 

1.941 

0.510 

0 

0 

1963-1 

2.178 

0.510 

0 

0 

-II 

2.067 

0.544 

0 

0 

-III 

1.942 

0.568 

0 

0 

-IV 

1.764 

0.677 

0 

0 

1  964-1 

1.532 

0.794 

0 

0 

-II 

1.455 

0.838 

0 

0 

-III 

1.409 

0.885 

0 

0 

-IV 

1.296 

0.978 

0 

0 

Tasa  de 

Tasa  de 

Ano 

desempleo 

puestos 

y 

TD, 

vacantes 

trimestre 

% 

V,  % 

D 

DV 

1  965-1 

1.201 

0.997 

0 

0 

-II 

1.192 

1.035 

0 

0 

-III 

1.259 

1.040 

0 

0 

-IV 

1.192 

1.086 

0 

0 

1  966-1 

1.089 

1.101 

0 

0 

-II 

1.101 

1.058 

0 

0 

-III 

1.243 

0.987 

0 

0 

-IV 

1.623 

0.819 

1 

0.819 

1  967-1 

1.821 

0.740 

1 

0.740 

-II 

1.990 

0.661 

1 

0.661 

-III 

2.114 

0.660 

1 

0.660 

-IV 

2.115 

0.698 

1 

0.698 

1  968-1 

2.150 

0.695 

1 

0.695 

-II 

2.141 

0.732 

1 

0.732 

-III 

2.167 

0.749 

1 

0.749 

-IV 

2.107 

0.800 

1 

0.800 

1 969-1 

2.104 

0.783 

1 

0.783 

-II 

2.056 

0.800 

1 

0.800 

-III 

2.170 

0.794 

1 

0.794 

-IV 

2.161 

0.790 

1 

0.790 

1970-1 

2.225 

0.757 

1 

0.757 

-II 

2.241 

0.746 

1 

0.746 

-III 

2.366 

0.739 

1 

0.739 

-IV 

2.324 

0.707 

1 

0.707 

1971-1 

2.516* 

0.583* 

1 

0.583 

-II 

2.909* 

0.524* 

1 

0.524 

*Estimados  preliminares. 


9.3.  Considere  los  siguientes  resultados  de  una  regresion.*  (Los  datos  reales  se  proporcionan 
en  la  tabla  9.8.) 

TD,  =  2.7491  +  1.1 507 A  -  1.52941)-  0.8511(AD) 

t  =  (26.896)  (3.6288)  (-12.5552)  (-1.9819) 

R2  =  0.9128 


donde  TD  =  tasa  de  desempleo,  % 

V  —  tasa  de  puestos  vacantes,  % 

D  —  1,  para  el  periodo  que  comienza  el  cuarto  trimestre  de  1966 
=  0,  para  el  periodo  anterior  al  cuatro  trimestre  de  1966 
t  —  tiempo,  medido  en  trimestres 

Nota:  En  el  cuarto  trimestre  de  1966,  el  entonces  gobierno  laborista  liberalizo  la  Ley 
de  Seguro  Nacional:  reemplazo  el  sistema  de  tasa  fija  para  prestaciones  de  desempleo  de 
corto  plazo  por  un  sistema  mixto  de  tasa  fija  y  prestaciones  relacionadas  con  los  ingresos 
(anteriores),  el  cual  incremento  el  nivel  de  las  prestaciones  de  desempleo. 


*  Damodar  Gujarati,  "The  Behaviour  of  Unemployment  and  Unfilled  Vacancies:  Great  Britain,  1 958-1 971 ", 
The  Economic  journal,  vol.  82,  marzo  de  1 972,  pp.  1 95-202. 
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a)  /.Cualcs  son  las  expectativas  a  priori  respecto  de  la  relacion  entre  las  tasas  de  desem- 
pleo  y  de  vacantes? 

b )  Si  la  tasa  de  vacantes  se  mantiene  constante,  (',cual  es  la  tasa  promedio  de  desempleo 
para  el  periodo  que  comienza  el  cuarto  trimestre  de  1966?  /,Es  estadlsticamente  dis- 
tinto  del  periodo  anterior  al  cuarto  trimestre  de  1966?  ^Como  sabe? 

c)  (',Las  pendientes  para  el  periodo  anterior  y  posterior  al  cuarto  trimestre  de  1966  son 
estadlsticamente  distintas?  ^Como  sabe? 

d)  /.Sc  puede  concluir  con  toda  seguridad,  a  partir  de  este  estudio,  que  los  generosos  be- 
neficios  del  desempleo  propician  tasas  mas  altas  de  vacantes?  (',Lo  anterior  tiene  algun 
sentido  economico? 

9.4.  Con  base  en  datos  anuales  para  el  periodo  1972-1979,  William  Nordhaus  estimo  el  si- 
guiente  modelo  para  explicar  el  comportamiento  del  precio  del  petroleo  de  la  OPEP  (erro- 
res  estandar  entre  parentesis):* 

yt—  0.3xlr  +  5.22x2/ 
ee  =  (0.03)  (0.50) 

donde  y  —  diferencia  entre  el  precio  del  ano  en  curso  y  el  ano  anterior  (dolares  por  barril) 
xi  =  diferencia  entre  el  precio  para  entrega  inmediata  del  ano  en  curso  y  el  precio  de 
la  OPEP  en  el  ano  anterior 
X2  =  1  para  el  ano  1974  y  0  de  lo  contrario 

Interprete  este  resultado  y  muestre  el  resultado  graficamente.  (',Que  indican  estos  resulta- 
dos  acerca  del  poder  monopolico  de  la  OPEP? 

9.5.  Considere  el  siguiente  modelo 

Yj  —  ot\  +  otjDj  +  p  Xi  +  Ui 

donde  Y  —  salario  anual  de  un  profesor  universitario 
X  —  anos  de  experiencia  docente 
D  —  variable  dicotoma  para  el  sexo 

Considere  tres  formas  de  definir  la  variable  dicotoma: 

a)  D  —  1  si  es  hombre;  0  si  es  mujer. 

b)  D  —  1  si  es  mujer;  0  si  es  hombre. 

c)  D  —  1  si  es  mujer;  —  1  si  es  hombre. 

Interprete  el  modelo  de  regresion  anterior  para  cada  asignacion  de  variable  dicotoma.  (',Es 
preferible  un  metodo  en  vez  de  otro?  Justifique  su  respuesta. 

9.6.  Consulte  la  regresion  (9.7.3).  (',C6mo  probaria  la  hipotesis  de  que  los  coeficientes  de  Z>2 
y  />,  son  iguales?  ,Y  que  los  coeficientes  f-h  y  D4  son  iguales?  Si  el  coeficiente  de  D3  es 
estadlsticamente  distinto  del  de  D2,  y  el  coeficiente  de  D\  es  diferente  del  de  Di,  ^significa 
que  los  coeficientes  D3  y  D4  son  tambien  distintos? 

Sugerencia:  var  (A  ±  B)  —  var  (A)  +  var  (B)  ±  2  cov  (A,  B) 

9.7.  Consulte  el  ejemplo  de  ahorro-ingreso  en  Estados  Unidos  analizado  en  la  seccion  9.5. 

a)  (',C6mo  obtendria  los  errores  estandar  de  los  coeficientes  de  regresion  dados  en  (9.5.5) 
y  (9.5.6),  los  cuales  se  obtuvieron  de  la  regresion  agrupada  (9.5.4)? 

b)  Para  obtener  respuestas  numericas,  ^que  informacion  adicional  se  requeriria,  en  caso 
de  necesitarse? 


*  "Oil  and  Economic  Performance  in  Industrial  Countries",  Brookings  Papers  on  Economic  Activity,  1 980, 
pp.  341-388. 
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9.8.  En  su  estudio  sobre  las  horas  de  trabajo  dedicadas  por  el  FDIC  (Federal  Deposit  Insurance 
Corporation)  al  analisis  de  91  bancos,  R.J.  Miller  estimo  la  siguiente  funcion:* 

InT  =  2.41  +  0.3674  lnXl  +  0.2217  \nX2  +  0.0803  \nX3 
(0.0477)  (0.0628)  (0.0287) 

-0.1755A  +  0.2799Z>2  +  0.5634 Z)3  -  0.2572 Z)4 

(0.2905)  (0.1044)  (0.1657)  (0.0787) 

R2  =  0.766 

donde  Y  —  horas-hombre  del  examinador  del  FDIC 
X\  —  activos  totales  del  banco 
X2  —  niimero  total  de  oficinas  del  banco 

X3  —  razon  de  prestamos  clasificados  a  prestamos  totales  del  banco 
D\  =  1  si  la  administracion  se  califico  “muy  buena” 

D2  —  1  si  la  administracion  se  califico  “buena” 

D3  =  1  si  la  administracion  se  califico  “satisfactoria” 

D4  —  1  si  la  evaluacion  se  realizo  junto  con  el  estado 

Las  cifras  en  parentesis  son  los  errores  estandar  estimados. 

a)  Interprete  estos  resultados. 

b)  (',Hay  algun  problema  en  la  interpretacion  de  las  variables  dicotomas  en  este  modelo 
por  estar  Y  en  forma  logaritmica? 

c)  pComo  interpretaria  los  coeficientes  de  las  variables  dicotomas? 

9.9.  Para  evaluar  el  efecto  de  la  politica  del  gobierno  federal  sobre  la  liberalizacion  de  tasas 
de  interes  iniciada  en  julio  de  1979,  Sidney  Langer,  alumna  del  autor,  estimo  el  siguiente 
modelo  para  el  periodo  trimestral  comprendido  entre  1975-III  y  1983-11  j 

Yt=  8.5871  -  0.1328P,-  0.7102Un,  -  0.2389 M, 
ee  =  (1.9563)  (0.0992)  (0.1909)  (0.0727) 

+  0.6592F,_i  +  2.583  IDic,  R2  =  0.9156 
(0.1036)  (0.7549) 

donde  Y  —  tasa  de  bonos  del  Tesoro  a  tres  meses 
P  —  tasa  de  inflacion  esperada 
Un  =  tasa  de  desempleo  ajustada  por  estacionalidad 
M  —  cambios  en  la  base  monetaria 

Die  =  variable  dicotoma,  que  adquiere  el  valor  de  1  para  las  observaciones  que  em- 
piezan  el  1  de  julio  de  1979 

a)  Interprete  estos  resultados. 

b)  (',Cual  fue  el  efecto  de  la  liberacion  de  la  tasa?  ^Tienen  sentido  economico  los  resulta¬ 
dos? 

c)  Los  coeficientes  de  Pt,  Un,  y  M,  son  negativos.  ^Pucdc  ofrecer  un  razonamiento  econo¬ 
mico? 

9.10.  Consulte  la  regresion  por  segmentos  analizada  en  el  texto.  Suponga  que  no  solo  hay  un 
cambio  en  el  coeficiente  de  la  pendiente  en  X*,  sino  tambien  un  salto  en  la  llnea  de  regre¬ 
sion,  como  se  muestra  en  la  figura  9.7.  ,',C6mo  modificaria  (9.8.1)  para  considerar  el  salto 
en  la  linea  de  regresion  en  X*1 


*  "Examination  of  Man-Hour  Cost  for  Independent,  Joint,  and  Divided  Examination  Programs",  journal  of 
Bank  Research,  vol.  1 1,  1980,  pp.  28-35.  Nota:  Las  notaciones  se  modificaron  para  adaptarlas  a  la  notacion 
del  texto. 

t  Sidney  Langer,  "Interest  Rate  Deregulation  and  Short-Term  Interest  Rates",  trabajo  universitario  inedito. 
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FIGURA  9.7 

Regresion  lineal  por  seg- 
mentos  discontinua. 


Y 


9.11.  Detenninantes  del  precio  por  onza  de  cola.  Cathy  Schaefer,  alumna  del  autor,  estimo  la 
siguiente  regresion  con  base  en  datos  transversales  de  77  observaciones:* 

Pi  —  Po  +  P\Di  j  +  P2D21  +  PiDu  +  [I, 
donde  P,  =  precio  por  onza  de  cola 

Du  —  00 1  si  es  almacen  de  descuento 
=  010  si  es  almacen  de  cadena 
=  100  si  es  tienda 

Z>2,  =  10  si  es  un  producto  de  marca 
=  01  si  es  un  producto  sin  marca 
Dn=  0001  botella  de  67.6  onzas  (2  litros) 

=  0010  botellas  de  28-33.8  onzas  ( Nota :  33.8  oz  =  1  litro) 

=  0100  botellas  de  16  onzas 
=  1  000  latas  de  12  onzas 

Los  resultados  fueron  los  siguientes: 

Pi  =  0.0143  -  0.000004Z>i,  +  0.0090D2l  +  0.00001Z)3, 

ee  =  (0.00001)  (0.00011)  (0.00000) 

t  =  (-0.3837)  (8.3927)  (5.8125) 

R2  =  0.6033 

Nota:  Los  errores  estandar  se  muestran  solo  con  cinco  decimales. 

a)  Comente  sobre  la  forma  de  introducir  las  variables  dicotomas  en  el  modelo. 

b)  Si  suponemos  que  el  procedimiento  de  variables  dicotomas  es  aceptable,  icomo  inter- 
preta  los  resultados? 

c)  El  coeficiente  de  D3  es  positivo  y  estadisticamente  significativo.  /,C6mo  interpreta  este 
resultado? 

9.12.  Con  base  en  los  datos  de  101  paises  sobre  el  ingreso  per  capita  en  dolares  (X)  y  la  espe- 
ranza  de  vida  en  anos  (7)  a  principios  de  la  decada  de  1970,  Sen  y  Srivastava  obtuvieron 
los  siguientes  resultados  de  regresion:1" 

Yi  =  -2.40  +  9.39  ln-Y,  -  3.36  [D^lnX,  -  7)] 

ee  =  (4.73)  (0.859)  (2.42)  R2  =  0.752 

donde  D,  =  I  si  In  X,  >  7,  y  Z),  =  0  de  lo  contrario.  Nota:  Cuando  In  X,  =  1,X—  $1  097 
(aproximadamente). 


‘Cathy  Schaefer,  "Price  Per  Ounce  of  Cola  Beverage  as  a  Function  of  Place  of  Purchase,  Size  of  Container, 
and  Branded  or  Unbranded  Product",  trabajo  universitario  inedito. 

tAshish  Sen  y  Muni  Srivastava,  Regression  Analysis:  Theory,  Methods,  and  Applications,  Springer-Verlag,  Nueva 
York,  1 990,  p.  92.  Se  cambio  la  notacion. 
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a)  ^Cual(es)  puede(«)  ser  la(s)  razon(razones)  para  introducir  la  variable  ingreso  en  forma 
logaritmica? 

b )  ^Como  interpretarla  el  coeficiente  9.39  del  In  Xp. 

c )  (',Cual  puede  ser  la  razon  para  introducir  la  regresora  D ,  (In  X,  —  1)1  ^Como  explica  esta 
regresora?  (',Y  como  interpreta  el  coeficiente  —3.36  de  esta  regresora?  ( Sugerencia : 
regresion  lineal  por  tramos.) 

d )  Si  suponemos  un  ingreso  per  capita  de  S 1  097  como  linea  divisoria  entre  los  paises  mas 
pobres  y  los  mas  ricos,  £como  derivaria  la  regresion  para  paises  cuyo  ingreso  per  capita 
es  menor  que  $  1  097  y  la  regresion  para  paises  cuyo  ingreso  per  capita  es  mayor  que 
$1  097? 

e)  i Que  conclusiones  generales  obtiene  del  resultado  de  la  regresion  de  este  problema? 

9.13.  Considere  el  siguiente  modelo: 

Yi  =  fi  i  +  P2  Dj  +  Uj 

donde  D,  =  0  para  las  primeras  20  observaciones  y  Dt—  1  para  las  30  observaciones  res¬ 
tates.  Tambien  se  le  indica  que  la  var (uj)  —  300. 

a)  ^Como  interpretaria  P\  y  ftp! 

b)  (',Cualcs  son  los  valores  promedio  de  los  dos  grupos? 

c)  ,',C6mo  calcularia  la  varianza  de  (/Si  +  p2)l  Nota:  Un  dato  que  se  le  da  es  que  la 
cov  (fa,  p2)  =  -15. 

9.14.  Para  evaluar  el  efecto  de  las  leyes  estatales  de  derecho  al  trabajo  referentes  a  los  sindicatos 
(las  cuales  no  obligan  a  pertenecer  a  un  sindicato  como  condicion  para  el  empleo),  se  ob- 
tuvieron  los  siguientes  resultados  de  regresion,  a  partir  de  datos  de  50  estados  de  Estados 
Unidos  durante  1982:* 

PSP,  =  19.8066  -  9.3917  DAT, 

*=(17.0352)  (-5.1086) 

r2  =  0.3522 

donde  PSP  =  porcentaje  de  los  empleados  en  el  sector  privado  afiliados  a  sindicatos  en 
1982,  y  DAT  =  1  si  hay  leyes  de  derecho  al  trabajo  y  0  en  otro  caso.  Nota:  En  1982,  dichas 
leyes  estaban  vigentes  en  20  estados  de  ese  pais. 

a )  A  priori ,  ^cual  es  la  relation  esperada  entre  PSP  y  DAT? 

b)  /(Los  resultados  de  la  regresion  apoyan  las  expectativas  anteriores? 

c)  Interprete  los  resultados  de  la  regresion. 

d)  (',Cual  es  el  porcentaje  promedio  de  los  empleados  del  sector  privado  pertenecientes 
a  sindicatos,  en  los  estados  en  donde  no  estan  vigentes  las  leyes  sobre  el  derecho  al 
trabajo? 

9.15.  En  el  siguiente  modelo  de  regresion: 

Yi  —  P\  +  P2Di  +  Ui 

Y  representa  el  salario  por  hora  en  dolares,  y  I)  es  la  variable  dicotoma,  que  toma  el  valor 
de  1  si  es  un  titulado  universitario  y  0  si  es  un  titulado  de  escuela  media  superior.  Con  las 
formulas  de  MCO  del  capitulo  3,  demuestre  que  jJ>\  —  >jng  y  Pi  —  Ycg  Ehg,  donde  los 
subindices  tienen  los  siguientes  significados:  hg  =  graduado  de  escuela  media  superior,  y 
eg  =  graduado  universitario.  En  total,  existen  ri\  graduados  de  escuela  media  superior  y  n2 
graduados  universitarios,  para  una  muestra  total  de  n  —  n\  +  n2. 


*Los  datos  de  los  resultados  de  la  regresion  provienen  de  N.M.  Meltz,  "Interstate  and  Interprovincial  Dif¬ 
ferences  in  Union  Density",  Industrial  Relations,  vol.  28,  num.  2,  1989,  pp.  142-158. 
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9.16.  Para  estudiar  la  tasa  de  crecimiento  de  la  poblacion  de  Belice  de  1970  a  1992,  Mukherjee 
et  al.  estimaron  los  siguientes  modelos:* 

Modelol:  ln(Pob)7=  4.73  +  0.024t 

t=  (781.25)  (54.71) 

Modelo  II:  ln(Pobj7=  4.77+  0.015?  —  0.075Z),  +  0.011(AO 

t=  (2  477.92)  (34.01)  (-17.03)  (25.54) 

donde  Pob  =  poblacion  en  millones;  t  —  variable  de  tendencia;  D,  —  1  para  observaciones 
que  comenzaron  en  1978  y  0  antes  de  1978;  y  In  significa  logaritmo  natural. 

a)  En  el  modelo  I,  /cual  es  la  tasa  de  crecimiento  de  la  poblacion  de  Belice  durante  el 
periodo  de  muestra? 

b)  /.Las  tasas  de  crecimiento  son  estadisticamente  distintas  antes  y  despues  de  1978? 
/Como  sabe?  Si  son  diferentes,  /cuales  son  las  tasas  de  crecimiento  para  1972-1977  y 
1978-1992? 

Ejercicios  empfricos 

9.17.  Con  los  datos  de  la  tabla  9.8  pruebe  la  hipotesis  de  que  las  varianzas  de  los  errores  en  los 
dos  subperiodos  1958-IV  a  1966-111  y  1966-IV  a  1971-11  son  iguales. 

9.18.  Con  la  metodologia  analizada  en  el  capitulo  8,  compare  la  regresion  no  restringida  (9.7.3) 
con  la  restringida  (9.7.4);  es  decir,  pruebe  la  validez  de  las  restricciones  impuestas. 

9.19.  En  el  ejemplo  de  la  regresion  (9.5.4)  sobre  ahorro-ingreso  en  Estados  Unidos  analizado  en 
este  capitulo,  suponga  que  en  lugar  de  utilizar  los  valores  0  y  1  para  la  variable  dicotoma 
se  emplea  Z,  —  a  +  bD „  donde  D,  =  1  y  0,  a  —  2  y  b  —  3.  Compare  sus  resultados. 

9.20.  Siguiendo  con  la  regresion  (9.5.4)  sobre  ahorro-ingreso,  suponga  que  asigno  Z),  =  0  para 
las  observaciones  hechas  en  el  segundo  periodo,  y  Z>,  =  1  para  las  observaciones  del  pri¬ 
mer  periodo.  /.Como  cambiarian  los  resultados  mostrados  en  (9.5.4)? 

9.21.  Con  los  datos  de  la  tabla  9.2  considere  el  siguiente  modelo: 

In  Ahorro,  =  ji\  +  f$2  In  Ingreso,  +  fa  In  Z),  +  «, 

donde  In  significa  logaritmo  natural  yZ),  =  1  para  1970-1981  y  10  para  1982-1995. 

a)  /Cual  es  el  razonamiento  en  el  que  se  basa  la  asignacion  de  valores  dicotomos,  como 
se  propone? 

b)  Estime  el  modelo  anterior  e  interprete  sus  resultados. 

c)  /Cuales  son  los  valores  del  intercepto  de  la  funcion  ahorros  en  los  dos  subperiodos,  y 
como  los  interpretaria? 

9.22.  Consulte  las  ventas  trimestrales  de  aparatos  electrodomesticos  dadas  en  la  tabla  9.3.  Con¬ 
sidere  el  siguiente  modelo: 

Ventas,-  —  a\  +  U2D21  +  oiiDa  + 

donde  las  variables  dicotomas  D  toman  los  valores  de  1  y  0  para  los  trimestres  II  al  IV 

a)  Estime  de  manera  individual  el  modelo  anterior  para  las  lavalozas,  trituradores  de  ba- 
sura  y  lavadoras. 

b)  /Como  interpretaria  los  coeficientes  estimados  de  las  pendientes? 

c)  /Como  utilizaria  las  a  estimadas  para  desestacionalizar  los  datos  sobre  ventas  de  cada 
categoria  de  aparato? 


*  Chandan  Mukherjee,  Howard  White  y  Marc  Wuyts,  Econometrics  and  Data  Analysis  for  Developing  Countries, 
Routledqe,  Londres,  1998,  pp.  372-375.  Se  adaptaron  las  notaciones  al  libro. 
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TABLA  9.8 

Obs. 

Ano 

V 

W 

D 

c 

/ 

N 

P 

Elecciones  presidenciales 

de  Estados  Unidos, 

1 

1916 

0.5168 

0 

1 

2.229 

1 

3 

4.252 

1916-2004 

2 

1920 

0.3612 

1 

0 

-11.46 

1 

5 

16.535 

3 

1924 

0.4176 

0 

-1 

-3.872 

10 

5.161 

4 

1928 

0.4118 

0 

0 

4.623 

7 

0.183 

5 

1932 

0.5916 

0 

-1 

-14.9 

4 

7.069 

6 

1936 

0.6246 

0 

1 

11.921 

9 

2.362 

7 

1940 

0.55 

0 

1 

3.708 

8 

0.028 

8 

1944 

0.5377 

1 

1 

4.119 

14 

5.678 

9 

1948 

0.5237 

1 

1 

1.849 

5 

8.722 

10 

1952 

0.446 

0 

0 

0.627 

6 

2.288 

11 

1956 

0.4224 

0 

-1 

-1.527 

5 

1.936 

12 

1960 

0.5009 

0 

0 

0.114 

5 

1.932 

13 

1964 

0.6134 

0 

1 

5.054 

10 

1.247 

14 

1968 

0.496 

0 

0 

4.836 

7 

3.215 

15 

1972 

0.3821 

0 

-1 

6.278 

4 

4.766 

16 

1976 

0.5105 

0 

0 

3.663 

4 

7.657 

17 

1980 

0.447 

0 

1 

-3.789 

5 

8.093 

18 

1984 

0.4083 

0 

-1 

5.387 

7 

5.403 

19 

1988 

0.461 

0 

0 

2.068 

6 

3.272 

20 

1992 

0.5345 

0 

-1 

2.293 

1 

3.692 

21 

1996 

0.5474 

0 

1 

2.918 

3 

2.268 

22 

2000 

0.50265 

0 

0 

1.219 

8 

1.605 

23 

2004 

0.51233 

0 

1 

2.69 

1 

2.325 

Notas: 

Ano  Ano  electoral 

V  Participation  titular  del  voto  bipartidista  para  la  presidencia. 

W  Variable  indicadora  (1  para  las  elecciones  de  1920,  1944  y  1948;  0  en  cualquier  otro  caso). 

D  Variable  indicadora  (1  si  un  candidato  democrata  compite  en  las  elecciones,  —1  si  un  candidato  republicano  compite  en  las  eleccio¬ 

nes;  0  en  cualquier  otro  caso). 

G  Tasa  de  crecimiento  del  P1B  per  capita  real  en  los  primeros  tres  trimestres  del  ano  electoral. 

/  Variable  indicadora  (1  si  hay  un  titular  democrata  al  momento  de  las  elecciones  y  -1  si  hay  un  titular  republicano). 

N  Numero  de  trimestres  en  los  primeros  1 5  trimestres  de  la  administracion  en  los  que  la  tasa  de  crecimiento  del  P1B  per  capita  real  es 

mayor  que  3.2%. 

P  Valor  absoluto  de  la  tasa  de  crecimiento  del  deflactor  del  P1B  en  los  primeros  1 5  trimestres  de  la  administracion. 


9.23.  Vuelva  a  estimar  el  modelo  del  ejercicio  9.22  anadiendo  la  siguiente  regresora:  gastos  en 
bienes  duraderos. 

a)  /.Existe  alguna  diferencia  entre  los  resultados  de  la  regresion  obtenidos  en  el  ejercicio 
9.22  y  los  de  este  ejercicio?  De  ser  asi,  /,que  explica  la  diferencia? 

b)  Si  existiera  estacionalidad  en  los  datos  del  gasto  en  bienes  duraderos,  /,como  la  expli- 
caria? 

9.24.  La  tabla  9.9  proporciona  datos  sobre  las  elecciones  presidenciales  de  Estados  Unidos  de 
1916  a  2004.* 

a)  Con  los  datos  de  la  tabla  9.9  elabore  un  modelo  adecuado  para  predecir  la  proporcion 
correspondiente  al  Partido  Democrata  del  voto  bipartidista  para  la  presidencia. 

b )  /,C6mo  utilizaria  este  modelo  para  predecir  el  resultado  de  una  eleccion  presidencial? 


*  Ray  Fair,  de  la  Universidad  de  Yale,  recopilo  originalmente  estos  datos;  Fair  ha  pronosticado  los  resultados 
de  las  elecciones  presidenciales  durante  varios  anos.  Los  datos  se  reproducen  de  la  obra  de  Samprit  Chatter- 
jee,  AN  S.  Hadi  y  Petram  Price,  Regression  Analysis  by  Example,  3a.  ed.,  John  Wiley  &  Sons,  Nueva  York,  2000, 
pp.  150-151,  y  se  actualizaron  de  http://fairmodel.econ.yale.edu/rayfair/pdf/2006CHTM.HTM 
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c)  Chatterjee  et  al.  propusieron  considerar  el  siguiente  modelo  tentativo  para  predecir  las 
elecciones  presidenciales: 

V  =  /So  +  Pil  +  fhD  +  IhW  +  MGI)  +  p5P  +  p6  N  +  u 

Estime  este  modelo  y  comente  los  resultados  respecto  de  los  resultados  del  modelo  que 
habla  propuesto. 

9.25.  Consulte  la  regresion  (9.6.4).  Pruebe  la  hipotesis  de  que  la  tasa  de  crecimiento  de  los 
ingresos  promedio  por  hora  respecto  de  la  escolaridad  difiere  segun  el  sexo  y  la  raza.  (Su- 
gerencia:  Utilice  variables  dicotomas  multiplicativas.) 

9.26.  Consulte  la  regresion  (9.3.1).  Co  trio  modificaria  el  modelo  para  saber  si  existe  alguna 
interaccion  entre  las  variables  sexo  y  region  de  residencia?  Presente  los  resultados  basados 
en  este  modelo  y  comparelos  con  los  dados  en  (9.3.1). 

9.27.  En  el  modelo  Yt  —  P\  +  piD,  +  u,,  sea  A  =  0  para  las  primeras  40  observaciones  y 
A  =  1  para  las  restantes  60  observaciones.  Sabe  que  u,  tiene  media  cero  y  varianza  de  100. 
pCuales  son  los  valores  medios  y  las  varianzas  para  los  dos  conjuntos  de  observaciones?* 

9.28.  Consulte  la  regresion  de  ahorro-ingreso  analizada  en  este  capitulo.  Como  modelo  alterno 
a  (9.5.1),  considere  el  siguiente: 

In  Yt  =  fi  i  +  P2D,  +  P2  X,  +  P^D/Xt)  +  u, 

donde  Y representa  los  ahorros  y  Xel  ingreso. 

a)  Estime  el  modelo  anterior  y  compare  los  resultados  con  los  de  (9.5.4).  (',Cual  es  mejor 
modelo? 

b)  (',C6mo  interpretaria  el  coeficiente  de  la  variable  dicotoma  en  este  modelo? 

c)  Como  veremos  en  el  capitulo  sobre  la  heteroscedasticidad,  a  menudo  una  transforma- 
cion  logaritmica  de  la  variable  dependiente  reduce  la  heteroscedasticidad  en  los  datos. 
Vea  si  este  es  el  caso  del  ejemplo  presente  con  la  regresion  del  logaritmo  de  Y  sobre  X 
para  los  dos  periodos,  y  observe  si  las  varianzas  de  error  estimadas  para  los  dos  perio- 
dos  son  estadisticamente  iguales.  Si  lo  son,  se  puede  utilizar  la  prueba  de  Chow  para 
agrupar  los  datos  de  la  manera  indicada  en  el  capitulo. 

9.29.  Consulte  el  ejemplo  de  los  trabajadores  asalariados  de  India  (seccion  9.12)  y  los  datos  de 
la  tabla  9.7.T  Como  recordatorio,  las  variables  se  definen  como  sigue: 

IS  =  ingreso  por  salario  semanal  en  rupias 
Edad  =  edad  en  anos 

Aexo  =  1  para  trabajadores  y  0  para  trabajadoras 

DE2  —  variable  dicotoma  que  toma  el  valor  de  1  para  trabajadores  con  nivel  de  escolari¬ 
dad  hasta  primaria 

DEi  —  variable  dicotoma  que  toma  el  valor  de  1  para  trabajadores  con  nivel  de  escolari¬ 
dad  hasta  secundaria 

DE4  =  variable  dicotoma  que  toma  el  valor  de  1  para  trabajadores  con  nivel  de  escolari¬ 
dad  superior  al  nivel  secundaria 

DPT  —  variable  dicotoma  que  toma  el  valor  de  1  para  trabajadores  con  empleo  perma- 
nente  y  0  para  trabajadores  eventuales 

La  categoria  de  referenda  es  trabajadores  sin  educacion  primaria  y  con  empleo  eventual. 


*  Este  ejemplo  se  adapto  de  Peter  Kennedy,  A  Guide  to  Econometrics,  4a.  ed.,  MIT  Press,  Cambridge,  Mas¬ 
sachusetts,  1998,  p.  347. 

t  Los  datos  provienen  de  Econometrics  and  Data  Analysis  for  Developing  Countries,  de  Chandan  Mukherjee, 
Howard  White  y  Marc  Wuyts,  Routledge  Press,  Londres,  1998,  en  el  apendice. 
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En  la  section  9.12  se  crearon  terminos  de  interaction  entre  las  variables  de  escolaridad 
(DE2,  DEt,  y  DE4)  y  la  variable  de  sexo  (Aexo)-  <',Que  sucede  si  se  crean  terminos  de  in¬ 
teraction  entre  las  variables  dicotomas  de  escolaridad  y  la  variable  dicotoma  de  trabajado- 
res  permanentes  (DPT)? 

a)  Estime  el  modelo  para  predecir  In  IS  que  contenga  variables  dicotomas  edad,  sexo  y 
escolaridad,  y  tres  nuevos  terminos  de  interaction:  DE2  x  DPT,  DEt,  x  DPT  y  DE4 
x  DPT.  ('.Parcce  que  existe  algun  efecto  significativo  de  interaction  entre  los  nuevos 
terminos? 

b )  (',Hay  alguna  diferencia  significativa  entre  los  trabajadores  con  nivel  de  escolaridad 
hasta  primaria  y  los  trabajadores  que  no  tienen  education  primaria?  Evaltie  esto  res- 
pecto  tanto  de  la  variable  dicotoma  de  escolaridad  como  del  termino  de  interaction  y 
explique  los  resultados.  /,Que  sucede  con  la  diferencia  entre  los  trabajadores  que  tienen 
education  secundaria  y  los  que  no  tienen  el  nivel  de  educacion  primaria?  /  Y  con  la 
diferencia  entre  quienes  tienen  nivel  de  escolaridad  superior  a  secundaria,  en  compara- 
cion  con  los  que  no  tienen  educacion  primaria? 

c)  Ahora  evalue  los  resultados  de  eliminar  las  variables  dicotomas  del  modelo.  ^Cambia 
la  significance  de  los  terminos  de  interaction? 


Regresion  semilogaritmica  con  regresora  dicotoma 

En  la  section  9.10  observamos  que  en  los  modelos  del  tipo 


In  Yj  =  Pi  +  p2Di 


0) 


el  cambio  relativo  en  Y (es  decir,  la  semielasticidad),  respecto  de  la  regresora  dicotoma  que  toma  los  valores 
de  1  o  0,  se  obtiene  como  (el  antilogaritmo  de  la  p2  estimada)  —  1  por  100;  es  decir,  como 


(eft  -  1)  x  100 

La  prueba  es  como  sigue:  como  la  funcion  log  y  exp  (=  e)  son  inversas,  (1)  se  expresa  como: 

In  Yt  =  Pi+\n(e<hDi) 


(2) 


(3) 


Ahora  bien,  cuando  D  =  0,  e^D‘  =  1,  y  cuando  D  =  1,  e^2  Di  =  e^2.  Por  consiguiente,  al  pasar  del  estado 
0  al  1,  In  Yt  cambia  por  (e^2  —  1).  Pero  una  variation  en  el  logaritmo  de  una  variable  es  un  cambio  relativo, 
el  cual,  despues  de  la  multiplication  por  100,  se  convierte  en  un  cambio  porcentual.  Por  tanto,  ese  cambio 
porcentual  es  (e^2  —  1)  x  100,  como  se  afirmaba.  ( Nota :  lne  e  =  1,  es  decir,  el  log  de  e,  base  e,  es  1;  al  igual 
que  el  logaritmo  de  10,  base  10,  es  1.  Recuerde  que  el  logaritmo  base  e  se  llama  logaritmo  natural,  y  que  el 
logaritmo  base  10  se  llama  logaritmo  comun.) 


Flexibiliz  acion 
de  los  supuestos 
del  modelo  clasico 


En  la  parte  1  consideramos  extensamente  el  modelo  clasico  de  regresion  lineal  normal  y  vimos 
como  utilizarlo  para  manejar  dos  problemas  de  inferencia  estadistica,  a  saber,  la  estimacion  y  las 
pruebas  de  hipotesis,  asi  como  el  problema  de  prediccion.  Pero  recuerde  que  este  modelo  esta 
basado  en  diversos  supuestos  simplificadores,  que  son  los  siguientes: 


Supuesto  1.  El  modelo  de  regresion  es  lineal  en  los  parametros. 

Supuesto  2.  Los  valores  de  las  regresoras,  las  X,  son  fijos,  o  los  valores  de  X  son  indepen- 
dientes  del  termino  de  error.  Aqui,  esto  significa  que  se  requiere  covarianza 
cero  entre  z<;  y  cada  variable  X. 


Supuesto  3.  Para  X  dadas,  el  valor  medio  de  la  perturbacion  u,  es  cero. 

Supuesto  4.  Para  X  dadas,  la  varianza  de  w,  es  constante  u  homoscedastica. 

Supuesto  5.  Para  X  dadas,  no  hay  autocorrelacion,  o  correlation  serial,  entre  las  perturba- 
ciones. 


Supuesto  6.  El  numero  de  observaciones  n  debe  ser  mayor  que  el  numero  de  parametros 
por  estimar. 

Supuesto  7.  Debe  haber  variation  suficiente  entre  los  valores  de  las  variables  X. 


Tambien  se  incluyen  los  siguientes  tres  supuestos  en  esta  parte  del  texto: 


Supuesto  8. 
Supuesto  9. 

Supuesto  10. 


No  hay  colinealidad  exacta  entre  las  variables  X. 

El  modelo  esta  correctamente  especificado,  por  lo  que  no  hay  sesgo  de  especi- 
ficacion. 

El  termino  estocastico  (de  perturbacion)  w,  esta  normalmente  distribuido. 


Antes  de  proseguir,  conviene  senalar  que  la  mayoria  de  los  libros  de  texto  enumeran  menos 
de  10  supuestos.  Por  ejemplo,  los  supuestos  6  y  7  se  dan  por  obvios  en  vez  de  declararlos  expli- 
citamente.  Decidimos  hacerlos  explicitos  porque  parece  razonable  distinguir  entre  los  supuestos 
requeridos  para  que  los  MCO  tengan  las  propiedades  estadisticas  deseables  (como  MELI)  y  las 
condiciones  requeridas  para  que  los  MCO  sean  utiles.  Por  ejemplo,  los  estimadores  de  MCO  son 
estimadores  MELI  aunque  no  se  satisfaga  el  supuesto  7.  Pero  en  ese  caso,  los  errores  estandar  de 
los  estimadores  de  MCO  seran  grandes  en  comparacion  con  sus  coeficientes  (es  decir,  las  razones 
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t  seran  pequenas),  con  lo  cual  se  dificulta  evaluar  la  contribucion  de  una  o  mas  regresoras  a  la 
suma  de  cuadrados  explicada. 

Como  menciona  Wetherill,  en  la  practica  surgen  dos  tipos  de  problemas  importantes  al  aplicar 
el  modelo  clasico  de  regresion  lineal:  1 )  los  debidos  a  supuestos  sobre  la  especificacion  del  mo¬ 
delo  y  sobre  las  perturbaciones  w,-,  y  2)  los  debidos  a  los  supuestos  sobre  los  datos.1  En  la  primera 
categoria  estan  los  supuestos  1,  2,  3,  4,  5,  9  y  10.  Los  de  la  segunda  categoria  son  los  supuestos 
6,  7  y  8.  Ademas,  los  problemas  en  los  datos,  como  observaciones  atipicas  (o  inusuales)  y  errores 
de  medicion,  tambien  se  encuentran  en  la  segunda  categoria. 

Respecto  de  los  problemas  por  los  supuestos  sobre  las  perturbaciones  y  especificaciones  del 
modelo,  surgen  tres  grandes  interrogantes:  1)  (',Quc  gravedad  reviste  alejarse  de  un  supuesto  par¬ 
ticular  para  que  de  verdad  importe?  Por  ejemplo,  si  las  z/,  no  siguen  una  distribucion  exactamente 
normal,  (',quc  nivel  de  alejamiento  de  este  supuesto  puede  aceptarse  sin  que  se  destruya  la  pro- 
piedad  MELI  de  los  estimadores  de  MCO?  2)  ^Como  averiguar  si  en  verdad  se  violo  un  supuesto 
particular  en  un  caso  concreto?  Por  consiguiente,  (',c6mo  verificamos  que  las  perturbaciones  esten 
normalmente  distribuidas  en  una  aplicacion  dada?  Ya  estudiamos  las  pruebas  de  normalidad  del 
estadistico  A 2  de  Anderson-Darling  y  de  Jarque-Bera.  3)  /.Quc  medidas  correctivas  podemos 
emprender  si  uno  o  mas  supuestos  son  falsos?  Por  ejemplo,  si  encontramos  que  el  supuesto  de 
homoscedasticidad  en  una  aplicacion  es  falso,  £que  hacer? 

Respecto  de  los  problemas  atribuibles  a  supuestos  sobre  los  datos,  tambien  se  presentan  in¬ 
terrogantes  similares.  1)  (',Quc  tan  grave  es  un  problema  particular?  Por  ejemplo,  /,es  la  multi- 
colinealidad  tan  severa  que  dificulta  mucho  la  estimacion  y  la  inferencia?  2)  (',C6nio  se  mide  la 
severidad  del  problema  de  datos?  Por  ejemplo,  (',c6mo  decidimos  si  la  inclusion  o  la  exclusion  de 
una  observacion  u  observaciones  que  pueden  representar  observaciones  atipicas  constituiran  una 
diferencia  sustancial  en  el  analisis?  3)  ^Es  posible  remediar  con  facilidad  algunos  problemas  de 
informacion?  Por  ejemplo,  (',se  puede  acceder  a  los  datos  originales  para  encontrar  las  fuentes 
de  los  errores  de  medicion  en  los  datos? 

Por  desgracia,  no  hay  respuestas  satisfactorias  a  todas  estas  preguntas.  Lo  que  haremos  en  la 
parte  2  es  mirar  algunos  de  los  supuestos  en  forma  mas  critica,  aunque  no  todos  seran  objeto  de 
un  escrutinio  completo.  En  particular,  no  analizaremos  a  fondo  los  supuestos  2,  3  y  10,  por  las 
siguientes  razones: 

Supuesto  2:  Regresoras  fijas  y  regresoras  estocasticas 

Recuerde  que  el  analisis  de  regresion  se  basa  en  el  supuesto  de  que  las  regresoras  son  no  estocas¬ 
ticas  y  suponen  valores  fijos  en  muestreo  repetido.  Existe  una  buena  razon  para  esta  estrategia. 
A  diferencia  de  los  cientificos  de  las  ciencias  fisicas,  como  mencionamos  en  el  capitulo  1,  los 
economistas  generalmente  no  tienen  control  sobre  sus  datos,  dependen  con  mayor  frecuencia 
de  datos  secundarios,  es  decir,  informacion  recopilada  por  otros  agentes,  como  el  gobierno  y 
organizaciones  privadas.  Por  consiguiente,  la  estrategia  practica  es  suponer  que,  para  el  problema 
en  curso,  los  valores  de  las  variables  explicativas  estan  dados  aunque  las  variables  mismas  sean 
intrinsecamente  estocasticas  o  aleatorias.  Por  tanto,  los  resultados  del  analisis  de  regresion  estan 
condicionados  a  estos  valores  dados. 

Pero  suponga  que  no  es  posible  considerar  las  X  realmente  no  estocasticas  o  fijas.  Es  el  caso 
de  las  regresoras  aleatorias  o  estocasticas.  Ahora  la  situation  se  complica.  Las  u„  por  supuesto, 
son  estocasticas.  Si  las  X  tambien  lo  son,  se  debe  especificar  la  distribucion  tanto  de  las  X  como 


1  G.  Barrie  Wetherill,  Regression  Analysis  with  Applications,  Chapman  y  Hall,  Nueva  York,  1 986,  pp.  14-1 5. 
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de  las  Ui.  Si  estamos  dispuesto  a  considerar  el  supuesto  2  (es  decir,  que  las  X,  antique  aleatorias, 
estan  distribuidas  independientemente,  o  por  lo  menos  no  estan  correlacionadas,  con  las  ui),  para 
todo  fin  practico  se  puede  trabajar  como  si  las  X fueran  no  estocasticas.  Como  senala  Kmenta: 

Asi,  la  no  consideration  o  la  exclusion  del  supuesto  de  que  X  es  no  estocastica  y  su  reemptazo  por 
el  supuesto  de  que  X  es  estocastica  aunque  independiente  de  [u]  no  cambia  las  propiedades  desea- 
bles  y  la  factibilidad  de  la  estimation  de  minimos  cuadrados.2 

Por  consiguiente,  conservaremos  el  supuesto  2  hasta  que  abordemos  el  tema  de  los  modelos  de 
ecuaciones  simultaneas,  en  la  parte  4. 3  Ademas,  presentaremos  un  analisis  breve  de  las  regresoras 
no  estocasticas  en  el  capitulo  13. 

Supuesto  3:  Valor  de  la  media  de  ut  igual  a  cero 

Recuerde  el  modelo  de  regresion  lineal  con  k  variables: 

Yi  —  Pi  +  P2X21  +  P3X3,  +  •  ■  •  +  PkXki  +  Ui  (1 ) 

Supongamos  ahora  que 

E(ut \X2i,  Xy,  ...,  Xki)  =  w  (2) 

donde  w  es  una  constante;  observe  que  en  el  modelo  estandar  w  =  0,  pero  ahora  puede  ser  cual- 
quier  constante. 

Tomamos  la  esperanza  condicional  de  (1)  y  obtenemos 

E(Yi\X2i,  Xy,  .  .  .  ,  Xki )  —  Pi  +  P2X2i  +  PlXy  +  ■  ■  ■  +  PkXki  +  W 

—  (Pi  +  w)  +  P2X2i  +  PsXy  +  ■  •  •  +  PkXki  (3) 

=  a  +  P2X21  +  PiXy  +  ■  ■  ■  +  PkXki 

donde  a  =  (P\  +  w)  y  donde,  al  tomar  las  esperanzas,  se  debe  recordar  que  las  X  se  tratan  como 
constantes.  ((,Por  que?) 

Por  consiguiente,  si  no  se  satisface  el  supuesto  3,  no  podemos  estimar  el  intercepto  original  P\, 
lo  que  se  obtiene  es  a,  el  cual  contiene  a  Pi  y  a  /:(«,)  =  w.  En  resumen,  obtenemos  una  estimacion 
sesgada  de  P\. 

Pero,  como  mencionamos  en  diversas  ocasiones,  en  muchas  situaciones  practicas  el  inter¬ 
cepto,  P\,  es  de  poca  importancia;  los  parametros  con  mayor  significado  son  los  coeficientes 
de  pendiente,  que  permanecen  inalterados  aunque  se  viole  el  supuesto  3. 4  Ademas,  en  muchas 
aplicaciones  el  termino  del  intercepto  no  tiene  interpretacion  alguna. 


2  Jan  Kmenta,  Elements  of  Econometrics,  2a.  ed.,  Macmillan,  Nueva  York,  1986,  p.  338.  (Cursivas  en  el  origi¬ 
nal.) 

3  Aquf  debe  observarse  un  punto  tecnico.  En  lugar  del  supuesto  solido  de  que  las  X  y  u  son  independientes, 
puede  servir  el  supuesto  mas  debil  de  que  los  valores  de  las  variables  X  y  las  u  no  estan  correlacionados  con- 
temporaneamente  (es  decir,  en  el  mismo  momento).  En  este  caso,  los  estimadores  de  MCO  pueden  estar 
sesgados  pero  son  consistentes,  es  decir,  a  medida  que  el  tamano  de  la  muestra  se  incrementa  indefinida- 
mente,  los  estimadores  convergen  hacia  sus  valores  verdaderos.  Sin  embargo,  si  las  X  y  u  estan  correlaciona¬ 
das  contemporaneamente,  los  estimadores  de  MCO  son  sesgados  al  igual  que  inconsistentes.  En  el  capitulo 
1 7  veremos  que,  en  esta  situacion,  algunas  veces  el  metodo  de  variables  instrumentales  sirve  para  obte- 
ner  estimadores  consistentes. 

4  Es  muy  importante  mencionar  que  esta  afirmacion  es  valida  solo  si  £(u,)  =  w  para  cada  /.  Sin  embargo,  si 
E(ui)  =  w„  es  decir,  una  constante  diferente  para  cada  /,  los  coeficientes  de  pendiente  parciales  pueden  ser 
sesgados  lo  mismo  que  inconsistentes.  En  este  caso,  la  violacion  del  supuesto  3  sera  relevante.  Para  una 
demostracion  y  mayores  detalles,  vease  Peter  Schmidt,  Econometrics,  Marcel  Dekker,  Nueva  York,  1976,  pp. 
36-39. 
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Supuesto  10:  Normalidad  de  u 

Este  supuesto  no  es  esencial  si  el  objetivo  es  solamente  la  estimacion.  Como  vimos  en  el  capltulo 
3,  los  estimadores  de  MCO  son  MELI  sin  importar  que  las  u,  esten  normalmente  distribuidas  o 
no.  Con  el  supuesto  de  normalidad,  sin  embargo,  es  posible  establecer  que  los  estimadores  de 
MCO  de  los  coeficientes  de  regresion  siguen  la  distribucion  normal,  que  (n  —  k)o/o2  sigue  la 
distribucion  x2  y  que  pueden  utilizarse  las  pruebas  t  y  F  para  verificar  diversas  hipotesis  estadis- 
ticas,  sin  importar  el  tamano  de  la  muestra. 

Pero,  (',quc  sucede  si  las  u,  no  estan  normalmente  distribuidas?  Entonces  se  toma  en  cuenta  la 
siguiente  extension  del  teorema  central  del  limite;  recuerde  que  fue  el  teorema  central  del  limite, 
en  primera  instancia,  el  que  empleamos  para  justificar  el  supuesto  de  normalidad: 

Si  las  perturbaciones  [«,■]  son  independientes  y  estan  identicamente  distribuidas  con  media  cero 
y  varianza  [constante]  a2,  y  si  las  variables  explicativas  son  constantes  en  muestras  repetidas,  los 
estimadores  de  MC[0]  de  los  coeficientes  son  asintoticamente  normales  con  medias  iguales  a  las  /J 
correspondientes.5 

Por  consiguiente,  los  procedimientos  de  prueba  usuales  — las  pruebas  t  y  F —  son  aun  validas 
asintoticamente,  es  decir,  en  muestras  grandes,  pero  no  en  muestras  finitas  o  pequenas. 

El  hecho  de  que  los  estimadores  de  MCO  sigan  una  distribucion  normal  asintotica  (segun  el 
supuesto  de  varianza  homoscedastica  y  valores  fijos  de  X)  aunque  las  perturbaciones  no  tengan 
distribucion  normal  es  de  poca  ayuda  para  los  analistas  economicos,  que  pocas  veces  disponen 
de  datos  de  muestras  grandes.  Por  tanto,  el  supuesto  de  normalidad  adquiere  gran  importancia 
para  los  fines  de  pruebas  de  hipotesis  y  prediccion.  Entonces,  teniendo  en  mente  los  problemas 
de  estimacion  y  de  pruebas  de  hipotesis,  y  debido  a  que  las  muestras  pequenas  son  la  regia  mas 
que  la  excepcion  en  la  mayoria  de  los  analisis  economicos,  debemos  mantener  el  supuesto  de 
normalidad.6  (Pero  vease  el  capitulo  13,  seccion  13.12.) 

Por  supuesto,  esto  significa  que,  cuando  se  trata  de  una  muestra  finita,  se  debe  realizar  la 
prueba  explicita  del  supuesto  de  normalidad.  Ya  consideramos  las  pruebas  de  Anderson-Dar¬ 
ling  y  Jarque-Bera  de  normalidad.  Se  sugiere  al  lector  aplicar  estas  u  otras  pruebas  de  normali¬ 
dad  a  los  residuos  de  la  regresion.  Debe  tener  en  mente  que,  en  muestras  finitas  sin  el  supuesto  de 
normalidad,  los  estadisticos  usuales  t  y  F  pueden  no  seguir  las  distribuciones  t  y  F. 

Quedan  los  supuestos  1,  4,  5,  6,  7,  8  y  9.  Los  supuestos  6,  7  y  8  estan  estrechamente  interrela- 
cionados  y  se  analizan  en  el  capitulo  sobre  multicolinealidad  (10).  El  supuesto  4  se  estudia  en  el 
capitulo  sobre  heteroscedasticidad  (11);  el  supuesto  5,  en  el  capitulo  sobre  autocorrelacion  (12) 
y  el  supuesto  9,  en  el  capitulo  sobre  especificacion  de  modelos  y  prueba  de  diagnostico  (13).  De¬ 
bido  a  lo  especializado  de  la  naturaleza  y  a  las  exigencias  matematicas,  analizaremos  el  supuesto 
1  como  tema  especial  en  la  parte  3  (capitulo  14). 

Por  razones  pedagogicas,  en  cada  uno  de  esos  capitulos  seguiremos  un  esquema  comun,  a 
saber,  1)  identificar  la  naturaleza  del  problema,  2)  examinar  sus  consecuencias,  3)  sugerir  meto- 
dos  para  detectarlo  y  4)  considerar  medidas  correctivas  de  forma  que  produzcan  estimadores  con 
las  propiedades  estadisticas  deseables  analizadas  en  la  parte  1 . 


5  Henri  Theil,  Introduction  to  Econometrics,  Prentice-Hall,  Englewood  Cliffs,  Nueva  Jersey,  1978,  p.  240.  Debe 
mencionarse  que  los  supuestos  de  X  fijas  y  a2  constantes  son  cruciales  para  este  resultado. 

6  A  proposito,  observe  que  los  efectos  del  incumplimiento  de  la  normalidad  y  temas  relacionados  suele  anali- 
zarse  en  el  tema  de  estimacion  robusta  en  la  teorfa,  lo  cual  trasciende  el  alcance  de  este  libro. 
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Cabe  anotar:  como  ya  mencionamos,  no  hay  respuestas  satisfactorias  a  todos  los  problemas 
que  surgen  de  la  violacion  de  los  supuestos  del  MCRL.  Ademas,  puede  haber  mas  de  una  solu- 
cion  a  un  problema  particular  y  a  menudo  no  es  claro  cual  es  la  mejor.  Ademas,  en  una  aplicacion 
particular  puede  haber  mas  de  una  violacion  al  MCRL.  Asl,  el  sesgo  de  especificacion,  la  multi- 
colinealidad  y  la  heteroscedasticidad  pueden  coexistir  en  una  aplicacion,  y  no  existe  una  prueba 
unica  omnipotente  que  resuelva  todos  los  problemas  al  mismo  tiempo.7  Mas  aun,  una  prueba  es- 
pecifica,  que  pudo  ser  muy  comun  en  alguna  epoca,  quiza  ya  no  se  aplique  porque  se  descubrio 
que  tenia  alguna  falla.  Pero  asl  avanza  la  ciencia.  La  econometrla  no  es  la  excepcion. 


7  Esto  no  es  por  falta  de  intentos.  Vease  A.K.  Bera  y  C.M.  Jarque,  "Efficient  Tests  for  Normality,  Homosce- 
dasticity  and  Serial  Independence  of  Regression  Residuals:  Monte  Carlo  Evidence",  Economic  Letters,  vol.  7, 
1981,  pp.  313-31 8. 


Capitulo 


Multicolinealidad : 
^que  pasa  si  las 
regresoras  estan 
correlacionadas? 


No  hay  una  expresion  mas  erronea,  tanto  en  los  libros  de  texto  de  econometda  como  en  la  bibliografia 
aplicada,  que  la  de  “problema  de  multicolinealidad”.  Es  un  hecho  que  muchas  variables  explicativas 
presentan  un  alto  grado  de  colinealidad;  asimismo,  resulta  muy  claro  que  existen  disenos  experi- 
mentales  X'X  (es  decir,  matriz  de  datos)  que  serlan  mucho  mas  convenientes  que  los  disenos  que 
proporciona  la  experimentation  natural  (es  decir,  la  muestra  disponible).  No  obstante,  no  es  nada 
constructivo  quejarse  de  la  aparente  malevolencia  de  la  naturaleza,  y  los  remedios  ad  hoc  para  un 
mal  diseno  — como  una  regresion  por  pasos  o  una  regresion  en  cadena —  pueden  ser  desastrosamente 
inapropiados.  Es  mejor  aceptar  de  piano  que  los  datos  que  no  se  recopilaron  mediante  experimentos 
disenados  a  veces  no  proporcionan  mucha  information  sobre  los  parametros  de  interes.1 

El  supuesto  8  del  modelo  cldsico  de  regresion  lineal  (MCRL)  plantea  que  no  existe  multico¬ 
linealidad  entre  las  regresoras  incluidas  en  el  modelo  de  regresion.  En  este  capitulo  considera- 
mos  en  forma  critica  el  supuesto  de  no  multicolinealidad  en  busca  de  respuestas  a  las  siguientes 
preguntas: 

1 .  qCual  es  la  naturaleza  de  la  multicolinealidad? 

2.  ^Es  la  multicolinealidad  realmente  un  problema? 

3.  qCuales  son  sus  consecuencias  practicas? 

4.  ((Como  se  detecta? 

5.  (,Que  medidas  pueden  tomarse  para  aliviar  el  problema  de  multicolinealidad? 

En  este  capitulo  tambien  analizaremos  el  supuesto  6  del  MCRL,  a  saber,  que  el  numero  de 
observaciones  en  la  muestra  debe  ser  mayor  que  el  de  regresoras,  asi  como  el  supuesto  7,  que 
requiere  una  variabilidad  suficiente  en  los  valores  de  las  regresoras,  en  vista  de  que  ambos 


1  Edward  E.  Learner,  "Model  Choice  and  Specification  Analysis",  en  Zvi  Griliches  y  Michael  D.  Intriligator 
(eds.),  Handbook  of  Econometrics,  vol.  1,  North  Holland  Publishing  Company,  Amsterdam,  1983, 
pp.  300-301. 
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estan  estrechamente  relacionados  con  el  supuesto  de  la  multicolinealidad.  Arthur  Goldberger 
denomino  al  supuesto  6  el  problema  de  la  micronumerosidad,2  lo  cual  simplemente  significa  un 
tamano  pequeiio  de  muestra. 


10.1  Naturaleza  de  la  multicolinealidad 

El  termino  multicolinealidad  se  atribuye  a  Ragnar  Frisch.3  Originalmente,  designaba  una  rela¬ 
tion  lineal  “perfecta”  o  exacta  entre  algunas  o  todas  las  variables  explicativas  de  un  modelo  de 
regresion.4  Para  la  regresion  con  k  variables  que  incluye  las  variables  explicativas  Xu  X2, .  .  . ,  Xk 
(donde  X\  —  1  para  todas  las  observaciones  de  forma  que  den  cabida  al  termino  del  intercepto), 
se  dice  que  existe  una  relacion  lineal  exacta  si  se  satisface  la  siguiente  condicion: 

X\X\  +  X2X2  +  ■  •  •  +  XkXk  —  0  (10.1.1) 

donde  A-i,  X2,.  .  .  ,  Xk,  son  constantes  tales  que  no  todas  son  simultaneamente  iguales  a  cero.5 

Hoy  en  dia,  sin  embargo,  el  termino  multicolinealidad  incluye  el  caso  de  multicolinealidad 
perfecta,  como  lo  indica  (10. 1 . 1 )  y  tambien  el  caso  en  el  cual  hay  A'  variables  intercorrelacionadas 
pero  no  en  forma  perfecta,  de  la  siguiente  manera:6 


X\X\  +  X2X2  +  •  ■  ■  +  X2Xk  +  Vj  —  0  (10.1.2) 


donde  v,-  es  un  termino  de  error  estocastico. 

Para  apreciar  la  diferencia  entre  multicolinealidad  perfecta  y  multicolinealidad  menos  que 
perfecta  suponga,  por  ejemplo,  que  X2  f  0.  Entonces,  (10.1.1)  se  escribe  como 

A.1  Xi  Xi- 

X2i  =  ~-Lxu  -  ~~  JLXu  (10.1.3) 

X2  X2  k2 

que  muestra  la  forma  como  X2  esta  exactamente  relacionada  de  manera  lineal  con  otras  variables, 
o  como  se  deriva  de  una  combinacion  lineal  de  otras  variables  X.  En  esta  situacion,  el  coeficiente 
de  correlacion  entre  la  variable^  y  la  combinacion  lineal  del  lado  derecho  de  (10.1.3)  esta  obli- 
gado  a  ser  igual  a  uno. 

En  forma  similar,  si  X2  f  0,  la  ecuacion  (10.1.2)  se  escribe  como 

X-u  =  - ^Xkl  -  V;  (10.1.4) 

X2  A  2  A  2  X2 

lo  cual  muestra  que  X2  no  es  una  combinacion  lineal  exacta  de  otras  X  porque  esta  determinada 
tambien  por  el  termino  de  error  estocastico  v,. 


2Vease  su  obra  A  Course  in  Econometrics,  Harvard  University  Press,  Cambridge,  Massachusetts,  1991,  p.  249. 

3  Ragnar  Frisch,  Statistical  Confluence  Analysis  by  Means  of  Complete  Regression  Systems,  Institute  of  Econo¬ 
mics,  Oslo  University,  publ.  num.  5,  1934. 

4En  estricto  sentido,  la  multicolinealidad  se  refiere  a  la  existencia  de  mas  de  una  relacion  lineal  exacta,  y  coli- 
nealidad,  a  la  existencia  de  una  sola  relacion  lineal.  Pero  esta  distincion  pocas  veces  se  mantiene  en  la  prac- 
tica,  y  se  hace  entonces  referencia  a  multicolinealidad  en  ambos  casos. 

5  Las  posibilidades  de  obtener  una  muestra  de  valores  en  la  cual  las  regresoras  esten  relacionadas  en  esta 
forma  son  sin  duda  muy  pocas  en  la  practica,  excepto  por  diseno,  cuando,  por  ejemplo,  el  numero  de  ob¬ 
servaciones  es  menor  que  el  numero  de  regresoras,  o  si  se  cae  en  la  "trampa  de  la  variable  dicotoma",  como 
analizamos  en  el  capftulo  9.  Vease  el  ejercicio  10.2. 

6  Si  solo  hay  dos  variables  explicativas,  la  intercorrelacion  se  mide  con  el  coeficiente  de  orden  cero  o  de  co¬ 
rrelacion  simple.  Pero  si  hay  mas  de  dos  variables  X,  la  intercorrelacion  se  mide  por  los  coeficientes  de  corre¬ 
lacion  parcial  o  por  el  coeficiente  de  correlacion  multiple  R  de  una  variable  X,  y  se  consideran  en  conjunto 
todas  las  demas  variables  X. 
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Como  ejemplo  numerico,  considere  la  siguiente  informacion  hipotetica: 


*2 

*3 

xl 

10 

50 

52 

15 

75 

75 

18 

90 

97 

24 

120 

129 

30 

150 

152 

Es  evidente  que  Xy  =  5X21.  Por  consiguiente,  hay  colinealidad  perfecta  entre  X2  y  A3,  pues  el 
coeficiente  de  correlacion  ryi  es  la  unidad.  La  variable  X*  se  creo  de  A3  agregandole  simplemente 
los  siguientes  numeros,  tornados  de  una  tabla  de  numeros  aleatorios:  2,  0,  7,  9, 2.  Ahora  ya  no  hay 
multicolinealidad  perfecta  entre  X2  y  X*.  Sin  embargo,  las  dos  variables  estan  muy  correlaciona- 
das,  pues  los  calculos  indicaran  que  el  coeficiente  de  correlacion  entre  ellas  es  0.9959. 

El  metodo  algebraico  anterior  para  el  problema  de  la  multicolinealidad  se  expresa  concisa- 
mente  mediante  un  diagrama  de  Ballentine  (recuerde  la  figura  3.8  que  se  reproduce  en  la  figura 
10.1).  En  esta  figura  los  circulos  Y,  X2  y  A3  representan  las  variaciones  en  Y  (la  variable  depen- 
diente)  y  en  X2  y  A3  (las  variables  explicativas).  El  grado  de  colinealidad  se  mide  por  la  magnitud 
de  la  interseccion  (area  sombreada)  de  los  circulos  A)  y  A3.  En  la  figura  10.1a)  no  hay  intersec- 
cion  entre  A2  y  A3,  y,  por  tanto,  no  hay  colinealidad.  En  las  figuras  10.1b)  a  10. le),  el  grado  de 
colinealidad  va  de  “bajo”  a  “alto”:  entre  mayor  sea  la  interseccion  entre  A2  y  A3  (es  decir,  entre 


FIGURA  10.1 

Grafico  de  Ballentine  de 
multicolinealidad. 


a)  No  existe  colinealidad 


b)  Colinealidad  baja 


c)  Colinealidad  moderada 


d)  Colinealidad  alia 


e)  Colinealidad  muy  alia 
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mayor  sea  el  area  sombreada),  mayor  sera  el  grado  de  colinealidad.  En  el  extremo,  si  X2  y  X2  es- 
tuvieran  superpuestos  completamente  (o  si  X2  estuviera  por  completo  dentro  dc  X2,  o  viceversa), 
la  colinealidad  seria  perfecta. 

A  proposito,  observe  que  la  multicolinealidad,  como  la  definimos,  se  refiere  solo  a  relaciones 
lineales  entre  las  variables  X.  Este  concepto  no  aplica  a  las  relaciones  no  lineales  entre  ellas.  Por 
ejemplo,  considere  el  siguiente  modelo  de  regresion: 

Yj  =  #,+  Pi  Xi  +  p2Xf  +  fhX]  +  Ui  (10.1 .5) 

donde,  digamos,  Y  —  costo  total  de  produccion  y  X  —  produccion.  Las  variables  Xj  (produccion 
al  cuadrado)  y  X-  (produccion  al  cubo)  por  supuesto  estan  funcionalmente  relacionadas  con  X, 
pero  la  relacion  es  no  lineal.  De  manera  estricta,  por  consiguiente,  modelos  como  (10.1.5)  no 
violan  el  supuesto  de  no  nuilticolinealidad.  Sin  embargo,  en  aplicaciones  concretas,  el  coeficiente 
de  correlacion  medido  de  forma  convencional  demostrara  que  X,-,  Xj  y  X-  estan  altamente  corre- 
lacionadas,  lo  cual,  como  mostraremos,  dificultara  estimar  los  parametros  de  (10.1.5)  con  mayor 
precision  (es  decir,  con  errores  estandar  pequeiios). 

<',Por  que  supone  el  modelo  clasico  de  regresion  lineal  que  no  hay  multicolinealidad  entre 
las  XI  El  razonamiento  es  el  siguiente:  Si  la  multicolinealidad  es  perfecta  en  el  sentido  de 
(10.1.1),  los  coeficientes  de  regresion  de  las  variables  X  son  indeterminados,  y  sus  errores 
estandar,  infinitos.  Si  la  multicolinealidad  es  menos  que  perfecta,  como  sucede  en  (10.1.2), 
los  coeficientes  de  regresion,  aunque  sean  determinados,  poseen  grandes  errores  estandar 
(en  relacion  con  los  coeficientes  mismos),  lo  cual  significa  que  los  coeficientes  no  pueden  ser 
estimados  con  gran  precision  0  exactitud.  Las  pruebas  de  estas  afirmaciones  se  presentan  en 
las  siguientes  secciones. 

Existen  diversas  fuentes  de  multicolinealidad.  Como  afirman  Montgomery  y  Peck,  la  multico¬ 
linealidad  puede  deberse  a  los  siguientes  factores:7 

1.  El  metodo  de  recoleccion  de  informacion.  Por  ejemplo,  la  obtencion  de  muestras  en  un 
intervalo  limitado  de  valores  tornados  por  las  regresoras  en  la  poblacion. 

2.  Restricciones  en  el  modelo  o  en  la  poblacion  objeto  de  muestreo.  Por  ejemplo,  en  la  regre¬ 
sion  del  consumo  de  electricidad  sobre  el  ingreso  ( X2 )  y  el  tamano  de  las  viviendas  (X3)  hay  una 
restriccion  fisica  en  la  poblacion,  pues  las  familias  con  ingresos  mas  altos  suelen  habitar  vivien¬ 
das  mas  grandes  que  las  familias  con  ingresos  mas  bajos. 

3.  Especificacion  del  modelo.  Por  ejemplo,  la  adicion  de  terminos  polinomiales  a  un  modelo 
de  regresion,  en  especial  cuando  el  rango  de  la  variable  X  es  pequeno. 

4.  Un  modelo  sobredeterminado.  Esto  sucede  cuando  el  modelo  tiene  mas  variables  expli- 
cativas  que  el  numero  de  observaciones.  Esto  puede  suceder  en  investigacion  medica,  donde  en 
ocasiones  hay  un  numero  reducido  de  pacientes  sobre  quienes  se  reune  informacion  respecto  de 
un  gran  numero  de  variables. 

Otra  razon  para  la  multicolinealidad,  sobre  todo  en  los  datos  de  series  de  tiempo,  puede  ser 
que  las  regresoras  del  modelo  compartan  una  tendencia  connin',  es  decir,  que  todas  aumenten  o 
disminuyan  a  lo  largo  del  tiempo.  Por  tanto,  en  la  regresion  del  gasto  de  consumo  sobre  el  in¬ 
greso,  la  riqueza  y  la  poblacion,  las  regresoras  ingreso,  riqueza  y  poblacion  tal  vez  todas  crezcan 
con  el  tiempo  a  una  tasa  aproximadamente  igual,  con  lo  cual  se  presentaria  la  colinealidad  entre 
dichas  variables. 


7  Douglas  Montgomery  y  Elizabeth  Peck,  Introduction  to  Linear  Regression  Analysis,  John  Wiley  &  Sons,  Nueva 
York,  1 982,  pp.  289-290.  Vease  tambien  R.L.  Mason,  R.F.  Gunst  y  J.T.  Webster,  "Regression  Analysis  and 
Problems  of  Multicollinearity,"  Communications  in  Statistics  A,  vol.  4,  num.  3,  1975,  pp.  277-292;  R.  F.  Gunst 
y  R.L  Mason,  "Advantages  of  Examining  Multicollinearities  in  Regression  Analysis",  Biometrics,  vol.  33,  1977, 
pp.  249-260. 
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10.2  Estimacion  en  presencia  de  multicolinealidad  perfecta 


Ya  establecimos  que,  en  el  caso  de  multicolinealidad  perfecta,  los  coeficientes  de  regresion  per- 
manecen  indeterminados  y  sus  errores  estandar  son  infinitos.  Esto  se  demuestra  facilmente  en 
terminos  del  modelo  de  regresion  con  tres  variables.  Con  la  forma  de  desviacion,  en  la  cual  todas 
las  variables  se  expresan  como  desviaciones  de  sus  medias  muestrales,  se  escribe  el  modelo  de 
regresion  con  tres  variables  como 

yt  —  P2X2  i  +  foxy  +  Ui  (10.2.1) 

Ahora,  del  capitulo  7,  obtenemos 

s  =  (£f'^)(E4)  ~  {Eyixy){J2x2ixy)  4  7) 

(E4)(E4)-(E*2/*3,-)2 

*  =  (E^3,-)(E4)  -  (EyiX2i){J2x2ixy)  4 

3  (E4)(E4)-(eW 

Suponga  que  Xy  =  XXt,,  donde  X  es  una  constante  diferente  de  cero  (por  ejemplo,  2, 4,  1.8,  etc.). 
Si  sustituimos  esto  en  (7.4.7)  obtenemos 


(E  V;*2; )  (E  E  4 i )  ~  4  E  ytX2i )  4  E  4 ) 
(E4)4E4)-^2  (E4)2 
0 
0 


que  es  una  expresion  indeterminada.  El  lector  puede  verificar  que  fo  tambien  es  indetermi- 
nada.8 

6Por  que  obtenemos  el  resultado  que  aparece  en  (10.2.2)?  Recuerde  el  significado  de  fo:  da  la 
tasa  de  cambio  en  el  valor  promedio  de  Y  a  medida  que  X2  cambia  en  una  unidad,  manteniendo 
Xt,  constante.  Pero  si  Xj  y  X2  son  perfectamente  colineales,  no  hay  forma  de  que  Xj  se  mantenga 
constante:  a  medida  que  X2  cambia,  tambien  lo  hace  X3  por  el  factor  X.  Esto  significa,  entonces, 
que  no  hay  forma  de  desenredar  las  influencias  separadas  de  X2  y  Xt,  de  la  muestra  dada:  para 
fines  practicos,  X2  y  X]  son  indistinguibles.  En  la  econometria  aplicada,  este  problema  ocasiona 
mucho  dano,  pues  la  idea  consiste  en  separar  los  efectos  parciales  de  cada  X  sobre  la  variable 
dependiente. 

Para  ver  esto  de  otra  forma,  sustituya  Xy  —  XX 2,  en  (10.2.1)  y  obtendra  lo  siguiente  [vease 
tambien  (7.1.12)]: 

Vi  —  fox2i  +  fo(Xx2i )  +  Ui 

—  (fo  +  Xfo)x2i  +  Ui  (10.2.3) 

=  otx2l  +  Ui 

donde 

a  =  (fo  +  Xfo)  (10.2.4) 


8  Otra  forma  de  ver  esto  es  la  siguiente:  por  definicion,  el  coeficiente  de  correlacion  entre  X2  y  Xi,  r2  3, 
es  J2  x2i  xy  /Jn  x2i  H  4  ■  Si  r23  =  1'  es  decir,  si  existe  colinealidad  perfecta  entre  X2  y  X3,  el  denominador 
de  (7.4.7)  sera  cero,  lo  que  imposibilita  la  estimacion  de  ft  (o  de  ft). 
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A1  aplicar  la  conocida  formula  de  MCO  a  (10.2.3)  obtenemos 

&  =  {h  +  ^h)=^r-  00-2.5) 

lsx2i 

Por  consiguiente,  aunque  se  puede  estimar  a  en  forma  unica,  no  hay  forma  de  estimar  /+  y  ft  en 
forma  igualmente  unica;  matematicamente, 

ot  —  P2  +  Lft  (10.2.6) 

nos  proporciona  una  sola  ecuacion  con  dos  incognitas  (observe  que  X  esta  dada)  y  existen  in- 
finidad  de  soluciones  para  (10.2.6)  con  valores  dados  de  a  y  X.  Para  expresar  esto  en  terminos 
concretos,  sea  a  —  0.8  y  X  —  2.  Entonces: 

0.8  =  ^2  +  243  (10.2.7) 

o 

42  =  0.8-2/13  (10.2.8) 

Ahora  seleccione  un  valor  de  43  arbitrariamente  y  tendra  una  solucion  para  4 2 •  Seleccione  otro 
valor  para  ft  y  tendra  otra  solucion  para  42-  No  importa  cuanto  lo  intente,  no  existe  un  valor 
unico  para  42- 

La  conclusion  del  analisis  anterior  es  que,  en  el  caso  de  multicolinealidad  perfecta,  no  puede 
obtenerse  una  solucion  unica  para  los  coeficientes  de  regresion  individual.  Pero  observe  que  se 
puede  obtener  una  solucion  unica  para  combinaciones  lineales  de  estos  coeficientes.  La  combi- 
nacion  lineal  (ft  +  A/I3)  se  estima  en  forma  unica  con  a,  dado  el  valor  de  X.9 

Asimismo,  observe  que  en  el  caso  de  multicolinealidad  perfecta,  las  varianzas  y  los  errores 
estandar  de  4 2  y  ft  individualmente  son  infinites.  (Vease  el  ejercicio  10.21.) 


10.3  Estimacion  en  presencia  de  multicolinealidad  “alta” 
pero  “imperfecta” 


La  situacion  de  multicolinealidad  perfecta  es  un  extremo  patologico.  Por  lo  general  no  existe  una 
relacion  lineal  exacta  entre  las  variables  X,  en  especial  en  informacion  economica  relacionada 
con  series  de  tiempo.  Por  tanto,  de  regreso  al  modelo  de  tres  variables  en  forma  de  desviacion 
dado  en  (10.2.1),  en  lugar  de  multicolinealidad  exacta  podemos  tener 

Xy  —  Xx2i  +  V,  (10.3.1) 

donde  X  /  0  y  donde  v,  es  un  termino  de  error  estocastico  tal  que  X2,  v,  =  0.  (/.Por  que?) 

A  proposito,  los  diagramas  de  Ballentine  que  aparecen  en  la  figura  1 0. 1  h)  a  1 0. 1  e)  representan 
casos  de  colinealidad  imperfecta. 

En  este  caso,  seria  posible  la  estimacion  de  los  coeficientes  de  regresion  /12  y  /I3 .  Por  ejemplo, 
al  sustituir  (10.3.1)  en  (7.4.7)  obtenemos 

~  =  Y^(yiX2i){x2  x+4  +  E  vf)  -  El/^2/  +  E4)  (1032) 

E  4  (^2  E  4  +  X>2)  -  (a  £  4)2 

donde  se  aprovecha  que  x2l  v,  —  0.  Se  deriva  una  expresion  similar  para  43- 


9  En  teorfa  econonnetrica,  una  funcion  del  tipo  (62  +  A./33)  se  conoce  como  funcion  estimable. 
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Ahora,  a  diferencia  de  (10.2.2),  no  hay  razon  a  priori  para  pensar  que  (10.3.2)  no  pueda  esti- 
marse.  Desde  luego,  si  v;  es  lo  bastante  pequeno,  es  decir,  muy  cercano  a  cero,  (10.3.1)  indicara 
colinealidad  casi  perfecta,  y  regresaremos  al  caso  indeterminado  de  (10.2.2). 


10.4  Multicoline alidad:  £tanto  para  nada? 

Consecuencias  teoricas  de  la  multicoline  alidad 


Recuerde  que  si  se  satisfacen  los  supuestos  del  modelo  clasico,  los  estimadores  de  MCO  de  los 
coeficientes  de  regresion  son  MELI  (o  MEI,  si  se  anade  el  supuesto  de  normalidad).  Ahora  puede 
demostrarse  que,  aunque  la  multicolinealidad  sea  muy  alta,  como  en  el  caso  de  casi  multicoli- 
nealidad,  los  estimadores  de  MCO  conservaran  la  propiedad  MELI.10  Entonces,  qcuales  son  los 
inconvenientes  de  la  multicolinealidad?  Christopher  Achen  comenta  al  respecto  (tenga  en  cuenta 
tambien  la  cita  de  Learner  del  principio  de  este  capitulo): 

Los  novatos  en  el  estudio  de  la  metodologia  en  ocasiones  se  preocupan  porque  sus  variables  inde- 
pendientes  esten  correlacionadas:  el  llamado  problema  de  multicolinealidad.  Sin  embargo,  la  multi¬ 
colinealidad  no  viola  los  supuestos  basicos  de  la  regresion.  Se  presentaran  estimaciones  consistentes 
e  insesgadas  y  sus  errores  estandar  se  estimaran  en  la  forma  correcta.  El  unico  efecto  de  la  multico¬ 
linealidad  tiene  que  ver  con  la  dificultad  de  obtener  los  coeficientes  estimados  con  errores  estandar 
pequenos.  Sin  embargo,  se  presenta  el  mismo  problema  al  contar  con  un  numero  reducido  de  obser- 
vaciones  o  al  tener  variables  independientes  con  varianzas  pequenas.  (De  hecho,  en  el  nivel  teorico, 
los  conceptos  de  multicolinealidad,  numero  reducido  de  observaciones  y  varianzas  pequenas  en  las 
variables  independientes  forman  parte  esencial  del  mismo  problema.)  Por  tanto,  la  pregunta  “ique 
debe  hacerse  entonces  con  la  multicolinealidad?”  es  similar  a  “^que  debe  hacerse  si  no  se  tienen 
muchas  observaciones?”  Al  respecto  no  hay  una  respuesta  estadistica. 1 1 

Para  referirse  a  la  importancia  del  tamano  de  la  muestra,  Goldberger  acuno  el  termino  micro- 
numerosidad,  como  contraparte  del  exotico  nombre  polisilabo  de  multicolinealidad.  De  acuer- 
do  con  Goldberger,  la  micronumerosidad  exacta  (la  contraparte  de  multicolinealidad  exacta) 
surge  cuando  n,  el  tamano  de  la  muestra,  es  cero,  en  cuyo  caso  es  imposible  cualquier  clase  de 
estimacion.  La  casi  micronumerosidad,  igual  que  la  casi  multicolinealidad,  surge  cuando  el  nu¬ 
mero  de  observaciones  escasamente  excede  al  numero  de  parametros  que  se  va  a  estimar. 

Learner,  Achen  y  Goldberger  estan  en  lo  correcto  al  lamentar  la  falta  de  atencion  al  problema 
del  tamano  de  la  muestra,  lo  mismo  que  al  problema  de  multicolinealidad.  Por  desgracia,  en  el 
trabajo  aplicado  que  comprende  informacion  secundaria  (es  decir,  informacion  recopilada  por 
alguna  institucion,  como  la  informacion  del  PNB  recopilada  por  el  gobierno),  es  posible  que  un 
investigador  por  si  solo  no  pueda  hacer  gran  cosa  sobre  el  tamano  de  la  informacion  muestral, 
y  quiza  deba  enfrentar  “la  estimacion  de  problemas  lo  bastante  importantes  para  justificar  su 
tratamiento  [por  ejemplo,  la  multicolinealidad]  como  una  violacion  del  modelo  CRL  [clasico  de 
regresion  lineal]”.12 

Primero,  es  cierto  que  aun  en  el  caso  de  casi  multicolinealidad  los  estimadores  de  MCO  son 
insesgados.  Pero  el  insesgamiento  es  una  propiedad  multimuestral  o  de  muestreo  repetido.  Esto 
significa  que,  si  mantenemos  fijos  los  valores  de  A,  si  obtenemos  muestras  repetidas  y  calculamos 
los  estimadores  de  MCO  para  cada  una  de  esas  muestras,  el  promedio  de  los  valores  muestrales 
se  aproximara  a  los  verdaderos  valores  poblacionales  de  los  estimadores  a  medida  que  aumenta 
el  numero  de  las  muestras.  Pero  esto  nada  dice  sobre  las  propiedades  de  los  estimadores  en  una 
muestra  dada. 


10  Como  la  casi  multicolinealidad  por  sf  misma  no  viola  los  demas  supuestos  enumerados  en  el  capitulo  7, 
los  estimadores  de  MCO  son  MELI,  como  alb  se  indica. 

11  Christopher  H.  Achen,  Interpreting  and  Using  Regression,  Sage,  Beverly  Hills,  California,  1982,  pp.  82-83. 

12  Peter  Kennedy,  A  Guide  to  Econometrics,  3a.  ed.,  The  MIT  Press,  Cambridge,  Massachusetts,  1 992,  p.  1  77. 
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Segundo,  tambien  es  cierto  que  la  colinealidad  no  destruye  la  propiedad  de  varianza  minima: 
en  la  clase  de  los  estimadores  lineales  insesgados,  los  estimadores  de  MCO  tienen  varianza  mi¬ 
nima;  es  decir,  son  eficientes.  Pero  esto  no  significa  que  la  varianza  de  un  estimador  de  MCO 
necesariamente  sea  pequena  (en  relation  con  el  valor  del  estimador)  en  cualquier  muestra  dada, 
como  demostraremos  en  breve. 

Tercero,  la  multicolinealidad  es  en  esencia  unfenomeno  (de  regresion)  muestral  en  el  sentido  en 
que,  aunque  las  variables  X  no  esten  linealmente  relacionadas  en  la  poblacion,  pueden  estarlo 
en  la  muestra  particular  disponible:  cuando  se  postula  la  funcion  de  regresion  teorica  o  pobla- 
cional  (FRP),  se  considera  que  todas  las  variables  X incluidas  del  modelo  ejercen  una  influencia 
separada  o  independiente  sobre  la  variable  dependiente  Y.  Pero  puede  suceder  que  en  cualquier 
muestra  dada  con  que  se  pruebe  la  FRP,  alguna  o  todas  las  variables  X  sean  tan  colineales  que  no 
sea  posible  aislar  su  influencia  individual  sobre  Y.  Es  decir,  la  muestra  falla  aunque  la  teoria  es- 
tablezca  que  todas  las  X  son  importantes.  En  resumen,  la  muestra  puede  no  ser  lo  bastante  “rica” 
para  acomodar  todas  las  variables  X en  el  analisis. 

A  manera  de  ilustracion,  reconsidere  el  ejemplo  consumo-ingreso  del  capitulo  3.  Los  econo- 
mistas  teorizan  que,  ademas  del  ingreso,  la  riqueza  del  consumidor  es  tambien  un  determinante 
importante  del  gasto  de  consumo.  Asi,  podemos  escribir 

Consumo,  =  P\  +  Pi  Ingreso,  +  fn  Riqueza,  +  z/, 

Ahora,  puede  suceder  que  cuando  se  obtiene  information  sobre  el  ingreso  y  la  riqueza,  las  dos 
variables  pueden  estar  muy  correlacionadas,  aunque  no  en  forma  perfecta:  la  gente  con  mayor 
riqueza  por  lo  general  tiende  a  percibir  mayores  ingresos.  Asi,  aunque,  en  teoria,  el  ingreso  y 
la  riqueza  son  candidatos  logicos  para  explicar  el  comportamiento  del  gasto  de  consumo,  en  la 
practica  (es  decir,  en  la  muestra)  puede  ser  dificil  distinguir  las  influences  separadas  del  ingreso 
y  de  la  riqueza  sobre  el  gasto  de  consumo. 

Lo  ideal  para  evaluar  los  efectos  individuales  de  la  riqueza  y  del  ingreso  sobre  el  gasto  de 
consumo  es  un  numero  suficiente  de  observaciones  muestrales  de  individuos  con  riqueza  pero  con 
ingresos  bajos,  e  individuos  de  altos  ingresos  con  escasa  riqueza  (recuerde  el  supuesto  7).  Aun¬ 
que  esto  puede  ser  posible  en  los  estudios  de  corte  transversal  (al  incrementar  el  tamano  de  la 
muestra),  es  muy  dificil  en  el  trabajo  de  series  de  tiempo  agregadas. 

Por  todas  estas  razones,  el  hecho  de  que  los  estimadores  de  MCO  sean  MELI  a  pesar  de  la 
presencia  de  multicolinealidad  es  poco  consuelo  en  la  practica.  Se  debe  ver  lo  que  sucede  o  puede 
suceder  en  una  muestra  dada,  tema  analizado  en  la  siguiente  section. 


10.5  Consecuencias  practicas  de  la  multicolinealidad 


En  los  casos  de  casi  o  alta  multicolinealidad  es  probable  que  se  presenten  las  siguientes  conse¬ 
cuencias: 

1 .  Aunque  los  estimadores  de  MCO  son  MELI,  presentan  varianzas  y  covarianzas  grandes  que 
dificultan  la  estimation  precisa. 

2.  Debido  a  la  consecuencia  1,  los  intervalos  de  confianza  tienden  a  ser  mucho  mas  amplios,  lo 
cual  propicia  una  aceptacion  mas  facil  de  la  “hipotesis  nula  cero”  (es  decir,  que  el  verdadero 
coeficiente  poblacional  es  cero). 

3.  Tambien  debido  a  la  consecuencia  1,  la  razon  /  de  uno  o  mas  coeficientes  tiende  a  ser  estadis- 
ticamente  no  significativa. 

4.  Aunque  la  razon  t  de  uno  o  mas  coeficientes  sea  estadisticamente  no  significativa,  R2,  la  me- 
dida  global  de  bondad  de  ajuste,  puede  ser  muy  alta. 

5.  Los  estimadores  de  MCO  y  sus  errores  estandar  son  sensibles  a  pequenos  cambios  en  los 
datos. 

Las  consecuencias  anteriores  se  demuestran  de  la  siguiente  manera. 
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Estimadores  de  MCO  con  varianzas  y  covarianzas  grandes 

Para  ver  varianzas  y  covarianzas  grandes,  recuerde  que,  para  el  modelo  (10.2.1),  las  varianzas  y 
covarianzas  de  ft  y  ft  estan  dadas  por 


var  (ft)  = 

(7 

(7.4.12) 

E4(!  -'E) 

var  (ft)  = 

er2 

(7.4.15) 

E4(!  -rh) 

cov  (ft,  ft)  = 

-r23a2 

(7.4.17) 

donde  r2 3  es  el  coeficiente  de  correlation  entre  X2  y  X2. 

De  (7.4.12)  y  (7.4.15)  se  desprende  que,  a  medida  que  r2 3  tiende  a  1,  es  decir,  a  medida  que 
aumenta  la  colinealidad,  tambien  lo  hacen  las  varianzas  de  los  dos  estimadores  y,  en  el  limite, 
cuando  r2 3  =  1,  son  infinitas.  Es  igualmente  claro  de  (7.4.17)  que,  a  medida  que  r2 3  aumenta 
hacia  1,  la  covarianza  de  los  dos  estimadores  tambien  aumenta  en  valor  absoluto.  \Nota:  cov  (ft, 
Ps)  =  cov  (ft,  ft).] 

La  velocidad  con  que  se  incrementan  las  varianzas  y  covarianzas  se  ve  con  el  factor  inflacio- 
nario  de  la  varianza  (FIV),  que  se  define  como 


FIV 


1 

O^E) 


(10.5.1) 


El  FIV  muestra  la  forma  como  la  varianza  de  un  estimador  se  infla  por  la  presencia  de  la  multi- 
colinealidad.  A  medida  que  r23  se  acerca  a  1,  el  FIV  se  acerca  a  infinito.  Es  decir,  a  medida  que 
el  grado  de  colinealidad  aumenta,  la  varianza  de  un  estimador  tambien  y,  en  el  limite,  se  vuelve 
infinita.  Como  se  aprecia,  si  no  hay  colinealidad  cntrc  X2  y  X3,  el  FIV  sera  1. 

Con  esta  definition,  (7.4.12)  y  (7.4.15)  se  expresan  como 

2 

var  (ft)  =  — — FIV  (10.5.2) 

l^x2i 

var  (ft)  =  ^FIV  (10.5.3) 

X3i 

lo  cual  muestra  que  las  varianzas  de  ft  y  ft  son  directamente  proporcionales  al  FIV 

Para  dar  alguna  idea  de  la  rapidez  con  que  aumentan  estas  varianzas  y  covarianzas  a  medida 
que  lo  hace  r2 3,  considere  la  tabla  10.1,  que  da  estas  varianzas  y  covarianzas  para  valores  selec- 

cionados  de  r2 3.  Como  lo  indica  esta  tabla,  los  aumentos  en  r2 3  tienen  un  efecto  drastico  sobre 

las  varianzas  y  covarianzas  estimadas  de  los  estimadores  de  MCO.  Cuando  r2 3  —  0.50,  la  var  02) 
es  1.33  veces  la  varianza  cuando  r2 3  es  cero,  pero,  para  cuando  r23  alcance  0.95,  sera  alrededor 
de  10  veces  mas  alta  que  cuando  no  hay  colinealidad.  Observe  bien  que  un  incremento  de  r2  3  de 
0.95  a  0.995  hace  que  la  varianza  estimada  sea  100  veces  la  obtenida  cuando  la  colinealidad  es 
cero.  Se  observa  el  mismo  efecto  espectacular  sobre  la  covarianza  estimada.  Todo  esto  se  ve  en 
la  figura  10.2. 

Los  resultados  recien  analizados  se  extienden  facilmente  al  modelo  con  k  variables.  En  un 
modelo  asi,  la  varianza  del  /c-esimo  coeficiente,  como  vimos  en  (7.5.6),  se  expresa  como: 


var (ft)  = 


(7.5.6) 
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TAB  LA  10.1 

Efecto  de  incrementar 

var  (ft)  ( 3  *  0) 

r23  sobre  la  var  (fc)  y  la 

Valor  de  r2  j 

FIV 

var  (ft) 

var  (ft)  ( 3  =  0) 

cov  (ft,  ft) 

cov  (02,  ft) 

(1) 

(2) 

(3)* 

(4) 

(5) 

0.00 

1.00 

°  2  =  A 

E4 

— 

0 

0.50 

1.33 

1.33  x  A 

1.33 

0.67  x  B 

0.70 

1.96 

1.96  x  A 

1.96 

1.37  x  e 

0.80 

2.78 

2.78  x  A 

2.78 

2.22  x  6 

0.90 

5.76 

5.26  x  A 

5.26 

4.73  x  6 

0.95 

10.26 

10.26  x  A 

10.26 

9.74  x  6 

0.97 

16.92 

16.92  x  A 

16.92 

16.41  x  B 

0.99 

50.25 

50.25  x  A 

50.25 

49.75  x  B 

0.995 

100.00 

100.00  x  A 

100.00 

99.50  x  B 

0.999 

500.00 

500.00  x  A 

500.00 

499.50  x  B 

Nota:  A  = - ■=- 

£4 


yJrA^TAi 

X  =  multiplication 

*Para  calcular  el  efecto  de  incrementar  r2 3  sobre  var(/§3),  observe  que  A  =  o1  /  ^  xl-  cuando  r23  =  0;  no  obstante,  los  factores 
magnificadores  de  la  varianza  y  covarianza  permanecen  iguales. 


figura  10.2 

Comportamiento  de  la 
var  (ft)  como  funcion 
de  r2  3. 


donde  )  —  coeficiente  parcial  (estimado)  de  la  regresora  Xj 

R2  =  R2  en  la  regresion  de  Xj  sobre  las  regresiones  restantes  (k  —  2)  [Nota:  Existen 
( k  —  1)  regresoras  en  el  modelo  de  regresion  de  £  variables.] 
x>,2  =  uXj  -  Xjf 

(7.5.6)  tambien  se  expresa  como 


2 

var  (Pj)  =  — — jFIVy  (10.5.4) 

2^xj 

Como  puede  observar  en  esta  expresion,  var  (ft,)  es  proporcional  a  a2  y  a  FIV,  pero  inversamente 
proporcional  a  ^  xj.  En  consecuencia,  el  que  var  (/i;)  sea  grande  o  pequena  depende  de  tres 
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TAB  LA  10.2 

Efecto  de  incrementar  la 

colinealidad  sobre 

el  intervalo  de  conflanza 

a  95%  para 

ft:  ft  ±  1-96  ee  (ft) 


Valor  de  r23 


Intervalo  de  confianza  a  95%  para  ft 


0.00 

ft  i  1  .96  / - y 

V  £  4 

0.50 

ft  ±  1  .96vTL33 )  / 

0.95 

ft  ±  1 ,96V(10.26)^ 

0.995 

ft  ±  1 .967(100)  f- 

0.999 

ft  ±  1 .967(500)  f- 

£4 


£4 


*2 

'2/ 


v2 

K2i 


Nota:  Se  usa  la  distribucion  normal  porque  suponemos  que  se  conoce  <r2  por  conveniencia. 
De  ahi  que  utilicemos  1 .96,  el  factor  de  confianza  de  95%  para  la  distribucion  normal. 

Los  errores  estandar  que  corresponden  a  los  diversos  valores  de  r23  se  obtienen  de  la 
tabla  10.1. 


ingredientes:  1)  <r2,  2)  FIV  y  3)  £*y2-  Este  ultimo  ingrediente,  que  se  vincula  al  supuesto  8  del 
modelo  clasico,  establece  que  mientras  mas  grande  sea  la  variabilidad  en  una  regresora,  mas 
pequena  sera  la  varianza  del  coeficiente  de  esa  regresora,  si  suponemos  que  los  otros  dos  ingre¬ 
dientes  son  constantes;  por  tanto,  sera  mayor  la  precision  para  estimar  dicho  coeficiente. 

Antes  de  seguir  adelante,  cabe  observar  que  el  inverso  del  FIV  se  conoce  como  tolerancia 
(TOL).  Es  decir, 

TOL,  =  —  =  (1  -  R2)  (10.5.5) 

J  FIV.  V  j)  v  ’ 

Cuando  R 2  =  1  (es  decir,  colinealidad  perfecta),  TOL,  =  0,  y  cuando  R2  —  0  (es  decir,  no  existe 

ninguna  colinealidad),  TOL,  es  1 .  Debido  a  la  estrecha  conexion  entre  el  FIV  y  la  TOL  pueden 

utilizarse  de  manera  indistinta. 

Intervalos  de  confianza  mas  amplios 

Debido  a  los  errores  estandar  grandes,  los  intervalos  de  confianza  para  los  parametros  pobla- 
cionales  relevantes  tienden  a  ser  mayores,  como  se  ve  en  la  tabla  10.2.  Por  ejemplo,  cuando 
r2  3  =  0.95,  el  intervalo  de  confianza  para  ft  es  mas  grande  que  cuando  ft  3  =  0  por  un  factor  de 
Vl0.26,  o  alrededor  de  3. 

Por  consiguiente,  en  casos  de  alta  multicolinealidad,  los  datos  muestrales  pueden  ser  compa¬ 
tibles  con  un  diverso  conjunto  de  hipotesis.  De  ahi  que  aumente  la  probabilidad  de  aceptar  una 
hipotesis  falsa  (es  decir,  un  error  tipo  II). 


Razones  t  "no  significativas" 

Recuerde  que  para  probar  la  hipotesis  nula  de  que,  por  ejemplo,  ft  =  0,  utilizamos  la  razon  t,  es 
decir,  ft/ee  (ft)  y  comparamos  el  valor  t  estimado  con  el  valor  t  critico  de  la  tabla  t.  Pero,  como 
vimos,  en  casos  de  alta  colinealidad  los  errores  estandar  estimados  aumentan  drasticamente,  lo 
que  disminuye  los  valores  t.  Por  consiguiente,  en  tales  casos  se  acepta  cada  vez  con  mayor  facili- 
dad  la  hipotesis  nula  de  que  el  verdadero  valor  poblacional  relevante  es  cero.13 


1 3  En  terminos  de  intervalos  de  confianza,  a  medida  que  aumenta  el  grado  de  colinealidad,  el  valor  ft  =  0  se 
ubica  cada  vez  mas  en  la  region  de  aceptacion. 
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Una  R2  alta  pero  pocas  razones  t  significativas 

Considere  el  modelo  de  regresion  lineal  con  A' variables: 

Yi  —  P 1  +  P2X2 i  +  P3X3 i  +  '  '  '  +  PkXki  +  Uj 

En  casos  de  alta  colinealidad  es  posible  encontrar,  como  acabamos  de  mencionar,  que  uno  o  mas 
coeficientes  parciales  de  pendiente  son,  de  manera  individual,  no  significativos  estadisticamen- 
te  con  base  en  la  prueba  t.  Aun  asi,  R2  en  tales  situaciones  puede  ser  tan  alto,  digamos,  superior 
a  0.9,  que,  con  base  en  la  prueba  F,  es  posible  rechazar  convincentemente  la  hipotesis  de  que 
p2  —  Pi  —  ■  ■  ■  —  pk—  0.  En  realidad,  esta  es  una  de  las  senales  de  multicolinealidad:  valores  t  no 
significativos  pero  un  R2  global  alto  (y  un  valor  F  significativo). 

Demostraremos  lo  anterior  en  la  siguiente  seccion,  pero  este  resultado  no  debe  sorprender  si 
tomamos  en  cuenta  el  analisis  de  las  pruebas  individuals  comparadas  con  las  pruebas  conjuntas 
del  capitulo  8.  Como  recordara,  el  problema  real  aqui  consiste  en  que  las  covarianzas  entre  los 
estimadores,  como  indica  la  formula  (7.4.17),  estan  relacionadas  con  las  correlaciones  entre 
las  regresoras. 


Sensibilidad  de  los  estimadores  de  MCO  y  sus  errores 
estandar  ante  cambios  pequenos  en  los  datos 

Siempre  que  la  multicolinealidad  no  sea  perfecta,  es  posible  la  estimation  de  los  coeficientes  de 
regresion;  sin  embargo,  las  estimaciones  y  sus  errores  estandar  se  tornan  muy  sensibles  aun  al 
mas  ligero  cambio  de  los  datos. 

Para  ver  esto  considere  la  tabla  10.3.  Con  base  en  estos  datos  obtenemos  la  siguiente  regresion 
multiple: 


%=  1.1939  +  0.4463X2,  +  0.0030X,, 

(0.7737)  (0.1848)  (0.0851) 

t  —  (1.5431)  (2.4151)  (0.0358)  (10.5.6) 

R2  =  0.8101  ^23  =  0.5523 

cov(^2,  ^3)  —  — 0.00868  gl  =  2 

La  regresion  (10.5.6)  muestra  que  ninguno  de  los  coeficientes  de  regresion  es  individualmente 
significativo  en  los  niveles  de  significancia  convencionales  de  1  o  de  5%,  a  pesar  de  que  /+ 
sea  significativo  en  el  nivel  de  10%  con  base  en  la  prueba  t  de  una  cola. 

Ahora  considere  la  tabla  10.4.  La  unica  diferencia  entre  las  tablas  10.3  y  10.4  es  que  se  intercam- 
biaron  el  tercer  y  el  cuarto  valores  de  X2.  Con  la  informacion  de  la  tabla  10.4  ahora  obtenemos 

Yi=  1.2108  +  0.401 4X2,-  +  0.0270X3, 

(0.7480)  (0.2721)  (0.1252) 

*  =  (1.6187)  (1.4752)  (0.2158)  (10.5.7) 

R2  =  0.8143  ^23  =  0.8285 

cov  (182,183)  =  -0.0282  gl=  2 

Como  resultado  de  un  ligero  cambio  en  los  datos  vemos  que  $2,  antes  estadisticamente  signifi¬ 
cativo  en  un  nivel  de  significancia  de  10%,  deja  ahora  de  serlo  aun  en  ese  nivel.  Observe  tambien 
que  en  (10.5.6)  la  cov  (p2,  Pp  —  —0.00868  mientras  que  en  (10.5.7)  es  —0.0282,  un  aumento 
superior  a  tres  veces  su  valor  inicial.  Todos  estos  cambios  pueden  atribuirse  a  un  aumento  de 
la  multicolinealidad:  en  (10.5.6),  r22  —  0.5523,  mientras  que  en  (10.5.7)  este  coeficiente  es 
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TAB  LA  10.3  Datos  hipoteticos  de 

Y,X 2yX3 


Y 

x2 

ft 

1 

2 

4 

2 

0 

2 

3 

4 

12 

4 

6 

0 

5 

8 

16 

TABLA  10.4  Datos  hipoteticos  de 

Y,X2  yX3 


Y 

ft 

x3 

1 

2 

4 

2 

0 

2 

3 

4 

0 

4 

6 

12 

5 

8 

16 

de  0.8285.  En  forma  similar,  los  errores  estandar  de  ft  y  ft  aumentan  entre  las  dos  regresiones, 
sintoma  caracteristico  de  la  colinealidad. 

Ya  mencionamos  que,  en  presencia  de  una  alta  colinealidad,  no  se  pueden  estimar  los  coefi- 
cientes  de  regresion  individuales  en  forma  precisa,  pero  que  las  combinaciones  lineales  de  estos 
coeficientes  se  estiman  con  mayor  exactitud.  Esto  se  confirma  con  las  regresiones  (10.5.6)  y 
(10.5.7).  En  la  primera  regresion,  la  suma  de  los  dos  coeficientes  parciales  de  las  pendientes  es 
0.4493,  en  tanto  que  en  la  segunda  regresion  dicha  suma  es  0.4284,  practicamente  la  misma.  No 
solo  eso:  sus  errores  estandar  son  practicamente  los  mismos,  0.1550  frente  a  0.1823. 14  Observe, 
sin  embargo,  que  el  coeficiente  de  ft  cambio  en  forma  notoria,  de  0.003  a  0.027. 


Consecuencias  de  la  micronumerosidad 

En  una  parodia  de  las  consecuencias  de  multicolinealidad  y  de  manera  informal,  Goldberger  cita 
consecuencias  exactamente  iguales  del  analisis  basado  en  muestras  pequenas,  es  decir,  de  la  mi¬ 
cronumerosidad.15  Se  aconseja  al  lector  consultar  el  analisis  de  Goldberger  para  ver  la  razon  por 
la  cual  da  la  misma  importancia  a  la  micronumerosidad  que  a  la  multicolinealidad. 


10.6  Ejemplo  ilustrativo 


EJEMPLO  10.1 

Gasto  de  consumo 
en  relacion  con  el 
ingreso  y  la  riqueza 


Para  ilustrar  los  puntos  mencionados  hasta  ahora,  reconsideremos  el  ejemplo  consumo-ingreso 
de  la  introduccion.  La  tabla  10.5  contiene  datos  hipoteticos  sobre  consumo,  ingreso  y  riqueza. 
Si  suponemos  que  el  gasto  de  consumo  se  relaciona  linealmente  con  el  ingreso  y  la  riqueza,  en- 
tonces,  con  base  en  la  tabla  10.5,  obtenemos  la  siguiente  regresion: 


)  =  24.7747 

+  0.9415X2,- 

0.0424X3; 

(6.7525) 

(0.8229) 

(0.0807) 

t=  (3.6690) 

(1.1442) 

(-0.5261) 

R2  =  0.9635  R2  = 

0.9531  gl  =  7 

(10.6.1) 


14  Estos  errores  estandar  se  obtienen  de  la  formula 

ee  (ft  +  ft)  =  \/var(ft)  +  var(ft)  +  2  cov(ft,  ft) 

Observe  que,  al  aumentar  la  colinealidad,  tambien  lo  hacen  las  varianzas  de  fS2  y  ft,  pero  pueden  compen- 
sarse  si  existe  una  alta  covarianza  negativa  entre  ambas,  como  lo  indican  claramente  los  resultados. 

15  Goldberger,  op.  cit.,  pp.  248-250. 
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TABLA  10.5  Datos  hipoteticos  de  gasto  de  consumo  Y,  ingreso  X2  y  riqueza  X3 


Y,$ 

*2,  $ 

*3,  $ 

70 

80 

810 

65 

100 

1  009 

90 

120 

1  273 

95 

140 

1  425 

110 

160 

1  633 

115 

180 

1  876 

120 

200 

2  052 

140 

220 

2  201 

155 

240 

2  435 

150 

260 

2  686 

TABLA  10.6 

Tabla  ANOVA  para  el 
ejemplo  de  consumo, 
ingreso  y  riqueza 


Origen  de  la  variacion 

SC 

gi 

SPC 

Debido  a  la  regresion 

8  565.5541 

2 

4  282.7770 

Debido  a  residuos 

324.4459 

7 

46.3494 

La  regresion  (10.6.1)  muestra  que  el  ingreso  y  la  riqueza  explican  en  conjunto  alrededor 
de  96%  de  la  variacion  en  los  gastos  de  consumo.  A  pesar  de  esto,  ningun  coeficiente  de  las 
pendientes  es  estadfsticamente  significativo  de  manera  individual.  Ademas,  no  solo  la  variable 
riqueza  es  estadfsticamente  no  significativa,  sino  que  tambien  tiene  el  signo  incorrecto.  A  priori, 
se  esperarfa  una  relacion  positiva  entre  el  consumo  y  la  riqueza.  A  pesar  de  que  P2  y  Pi  no  son 
significativos  individualmente  en  terminos  estadfsticos,  si  se  prueba  la  hipotesis  de  que  p 2  = 
Pi  =  0  simultaneamente,  esta  hipotesis  puede  rechazarse,  como  lo  demuestra  la  tabla  10.6. 
Segun  el  supuesto  usual  obtenemos 


4  282.7770 
46.3494 


92.4019 


(10.6.2) 


Como  es  obvio,  este  valor  Fes  muy  significativo. 

Es  interesante  observar  este  resultado  desde  un  punto  de  vista  geometrico.  (Vease  la  figura 
10.3.)  Con  base  en  la  regresion  (10.6.1)  se  establecieron  intervalos  de  confianza  individuales  a 
95%  de  confianza  para  P2  y  Pi  segun  el  procedimiento  usual  del  capftulo  8.  Como  muestran 
estos  intervalos,  cada  uno  de  ellos,  en  forma  individual,  incluye  el  valor  de  cero.  Por  tanto,  in¬ 
dividualmente  podemos  aceptar  la  hipotesis  de  que  las  dos  pendientes  parciales  son  cero.  Pero 
cuando  establecemos  el  intervalo  de  confianza  conjunto  para  probar  la  hipotesis  de  que  P2  = 
p3  =  0,  esa  hipotesis  no  puede  aceptarse,  pues  el  intervalo  de  confianza  conjunto,  en  realidad 
una  elipse,  no  incluye  el  origen.16  Como  ya  senalamos,  cuando  la  colinealidad  es  alta,  no  son 
confiables  las  pruebas  sobre  las  regresoras  individuales;  en  tales  casos,  la  prueba  F  global  es  la 
que  mostrara  si  Y  esta  relacionada  con  las  diversas  regresoras. 

El  ejemplo  muestra  en  forma  muy  evidente  lo  que  hace  la  multicolinealidad.  El  hecho  de  que 
la  prueba  F  sea  significativa  pero  los  valores  f  de  X2  y  X3  no  sean  significativos  individualmente 
implica  que  las  dos  variables  estan  tan  correlacionadas  que  es  imposible  aislar  el  impacto  indi- 

( continua ) 


16  Como  mencionamos  en  la  seccion  5.3,  el  tema  de  intervalos  de  confianza  conjuntos  es  muy  complicado. 
El  lector  interesado  puede  consultar  la  referenda  citada  allf. 
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EJEMPLO  10.1 

(i continuation ) 


FIGURA  10.3  Intervalos  de  confianza  individuales  para  Pi  y  Pi  e  intervalo  de  confianza  conjunto 
(elipse)  para  p2  y  Pi. 

ft 


vidual  del  ingreso  o  de  la  riqueza  sobre  el  consumo.  De  hecho,  si  efectuamos  la  regresion  de  X3 
sobre  X2,  obtenemos 

X3/ =  7.5454  +  1 0.1  909X2, 

(29.4758)  (0.1643)  (10.6.3) 

t=  (0.2560)  (62.0405)  R2  =  0.9979 

lo  cual  muestra  una  colinealidad  casi  perfecta  entre  X3  y  X2. 

Ahora  veamos  lo  que  sucede  si  solo  efectuamos  la  regresion  de  Y  sobre  X2: 

Y,  =  24.4545  +  0.5091  X2, 

(6.4138)  (0.0357)  (10.6.4) 

t=  (3.8128)  (14.2432)  R2  =  0.9621 

En  (10.6.1),  la  variable  ingreso  no  era  estadfsticamente  significativa,  mientras  que  ahora  es  muy 
significativa.  Si  en  lugar  de  efectuar  la  regresion  de  Y  sobre  X2  lo  hacemos  sobre  X3,  obtene¬ 
mos 

?i  =  24.41 1  +  0.0498X3i 

(6.874)  (0.0037)  (10.6.5) 

t=  (3.551)  (13.29)  R2  =  0.9567 

Se  observa  que  la  riqueza  tiene  ahora  un  impacto  significativo  sobre  el  gasto  de  consumo,  mien¬ 
tras  que  en  (1 0.6.1 )  no  tenia  ninguno. 

Las  regresiones  (10.6.4)  y  (10.6.5)  muestran  con  toda  claridad  que,  en  situaciones  de  ex¬ 
trema  multicolinealidad,  eliminar  la  variable  altamente  colineal  con  frecuencia  provoca  que  la 
otra  variable  X  se  torne  estadfsticamente  significativa.  Este  resultado  sugiere  que  una  forma  de 
evadir  la  colinealidad  extrema  es  eliminar  la  variable  colineal,  tema  que  veremos  con  mayor 
detalle  en  la  seccion  10.8. 
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EJEMPLO  10.2 

Funcion  de  con- 
sumo  para  Estados 
Unidos,  1947-2000 

Fuente:  Vease  la  tabla  7.12. 


A  continuacion  consideraremos  un  grupo  concreto  de  datos  sobre  gasto  de  consumo  real  (C), 
ingreso  personal  disponible  real  (Yd),  riqueza  real  (W)  y  tasa  de  interes  real  (I)  para  Estados  Uni¬ 
dos  de  1947  a  2000.  Los  datos  originales  se  presentan  en  la  tabla  10.7. 


TABLA  10.7  Gasto  de  consumo  en  Estados  Unidos  del  periodo  1947-2000 


Ano 

C 

Yd 

W 

1 

1947 

976.4 

1  035.2 

5  166.815 

-10.35094 

1948 

998.1 

1  090 

5  280.757 

-4.719804 

1949 

1  025.3 

1  095.6 

5  607.351 

1.044063 

1950 

1  090.9 

1  192.7 

5  759.515 

0.407346 

1951 

1  107.1 

1  227 

6  086.056 

-5.283152 

1952 

1  142.4 

1  266.8 

6  243.864 

-0.277011 

1953 

1  197.2 

1  327.5 

6  355.613 

0.561137 

1954 

1  221.9 

1  344 

6  797.027 

-0.138476 

1955 

1  310.4 

1  433.8 

7  1  72.242 

0.261997 

1956 

1  348.8 

1  502.3 

7  375.18 

-0.736124 

1957 

1  381.8 

1  539.5 

7  315.286 

-0.260683 

1958 

1  393 

1  553.7 

7  869.975 

-0.57463 

1959 

1  470.7 

1  623.8 

8  188.054 

2.295943 

1960 

1  510.8 

1  664.8 

8  351.757 

1.511181 

1961 

1  541.2 

1  720 

8  971.872 

1.296432 

1962 

1  617.3 

1  803.5 

9  091.545 

1.395922 

1963 

1  684 

1  871.5 

9  436.097 

2.057616 

1964 

1  784.8 

2  006.9 

10  003.4 

2.026599 

1965 

1  897.6 

2  131 

10  562.81 

2.111669 

1966 

2  006.1 

2  244.6 

10  522.04 

2.020251 

1967 

2  066.2 

2  340.5 

11  312.07 

1.212616 

1968 

2  184.2 

2  448.2 

12  145.41 

1.054986 

1969 

2  264.8 

2  524.3 

11  672.25 

1.732154 

1970 

2  317.5 

2  630 

11  650.04 

1.166228 

1971 

2  405.2 

2  745.3 

12  312.92 

-0.712241 

1972 

2  550.5 

2  874.3 

13  499.92 

-0.155737 

1973 

2  675.9 

3  072.3 

13  080.96 

1.413839 

1974 

2  653.7 

3  051.9 

11  868.79 

-1.042571 

1975 

2  710.9 

3  108.5 

12  634.36 

-3.533585 

1976 

2  868.9 

3  243.5 

13  456.78 

-0.656766 

1977 

2  992.1 

3  360.7 

13  786.31 

-1.190427 

1978 

3  124.7 

3  527.5 

14  450.5 

0.113048 

1979 

3  203.2 

3  628.6 

15  340 

1.70421 

1980 

3  193 

3  658 

15  964.95 

2.298496 

1981 

3  236 

3  741.1 

15  964.99 

4.703847 

1982 

3  275.5 

3  791.7 

16  312.51 

4.449027 

1983 

3  454.3 

3  906.9 

16  944.85 

4.690972 

1984 

3  640.6 

4  207.6 

17  526.75 

5.848332 

1985 

3  820.9 

4  347.8 

19  068.35 

4.330504 

1986 

3  981.2 

4  486.6 

20  530.04 

3.768031 

1987 

4  113.4 

4  582.5 

21  235.69 

2.819469 

1988 

4  279.5 

4  784.1 

22  331.99 

3.287061 

(continua) 
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(continuation) 


TABLA  10.7  Continuation 

Ano 

C 

Yd 

W 

1 

1989 

4  393.7 

4  906.5 

23  659.8 

4.317956 

1990 

4  474.5 

5  014.2 

23  105.13 

3.595025 

1991 

4  466.6 

5  033 

24  050.21 

1.802757 

1992 

4  594.5 

5  189.3 

24  418.2 

1.007439 

1993 

4  748.9 

5  261.3 

25  092.33 

0.62479 

1994 

4  928.1 

5  397.2 

25  218.6 

2.206002 

1995 

5  075.6 

5  539.1 

27  439.73 

3.333143 

1996 

5  237.5 

5  677.7 

29  448.19 

3.083201 

1997 

5  423.9 

5  854.5 

32  664.07 

3.12 

1998 

5  683.7 

6  168.6 

35  587.02 

3.583909 

1999 

5  968.4 

6  320 

39  591.26 

3.245271 

2000 

6  257.8 

6  539.2 

38  167.72 

3.57597 

Empleamos  lo  siguiente  para  el  analisis: 

In  Ct  =  fa  +  fa  In  Yc/t  +  fa  lnWt  +  fait  +  ut 


(10.6.6) 


donde  In  significa  logaritmo. 

En  este  modelo,  los  coeficientes  @2  y  Pi  dan  las  elasticidades  del  ingreso  y  la  riqueza,  respec- 
tivamente  (ipor  que?),  y  p4  da  la  semielasticidad  (£por  que?).  Los  resultados  de  la  regresion 
(10.6.6)  se  presentan  en  la  siguiente  tabla: 


Variable  dependiente :  LOG  (C) 
Metodo:  Minimos  cuadrados 
Muestra:  1947-2000 
Observaciones  incluidas :  54 


Coef iciente 

Error  estandar  Estadistico  t 

Probabilidad 

C 

-0.467711 

0 . 042778 

-10 . 93343 

0 . 0000 

LOG  (YD) 

0 .804873 

0 . 017498 

45 . 99836 

0 . 0000 

LOG  (RIQUEZA) 

0.201270 

0 . 017593 

11.44060 

0 . 0000 

INTERES 

-0 . 002689 

0 . 000762 

-3 . 529265 

0 . 0009 

R  cuadrada 

R  cuadrada  ajustada 

0 . 999560 

0 . 999533 

Media  de  la  variable 
dependiente 

7 . 826093 

Error  estandar  de 

Suma  de  cuadrados 

la  regresion 
residual 

0 . 011934 

0 . 007121 

Desviacion  estandar  de  la 
variable  dependiente 

0 . 552368 

Log  verosimilitud 

Estadistico  F 

Probabilidad  (estadistico  F) 

164 .5880 

37  832.59 

0 . 000000 

Criterio  de  informacion  de 

Akaike 

Criterio  de  Schwarz 

-5 . 947703 

-5 .800371 

Criterio  de  Hannan-Quinn  -5.890883 

Estadistico  de  Durbin-Watson  1.289219 


Nota:  LOG  significa  logaritmo  natural. 


Los  resultados  demuestran  que  todos  los  coeficientes  estimados  son  muy  significativos  desde 
el  punto  de  vista  estadistico,  pues  sus  valores  p  son  muy  pequenos.  Los  coeficientes  estimados 
se  interpretan  como  sigue:  la  elasticidad  del  ingreso  es  ~  0.80,  lo  que  indica  que,  cuando  las 
demas  variables  se  mantienen  constantes,  si  el  ingreso  aumenta  1%,  la  media  del  gasto  de  con- 
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sumo  aumenta  alrededor  de  0.8%.  El  coeficiente  de  riqueza  es  &  0.20,  lo  que  significa  que  si 
la  riqueza  aumenta  1%,  la  media  del  consumo  se  incrementa  solo  0.2%,  de  nuevo  cuando  las 
demas  variables  se  mantienen  constantes.  El  coeficiente  de  la  variable  tasa  de  interes  indica  que, 
a  medida  que  la  tasa  de  interes  aumenta  un  punto  porcentual,  el  gasto  de  consumo  disminuye 
0.26%,  ceteris  paribus. 

Todas  las  regresoras  tienen  signos  que  concuerdan  con  las  expectativas  previas,  es  decir,  el 
ingreso  y  la  riqueza  tienen  efecto  positivo  en  el  consumo,  pero  la  tasa  de  interes  produce  un 
efecto  negativo. 

^Hay  que  preocuparse  por  el  problema  de  la  multicolinealidad  en  este  caso?  Al  parecer  no, 
porque  todos  los  coeficientes  tienen  los  signos  correctos,  cada  coeficiente  es  muy  significativo 
estadfsticamente  en  lo  individual  y  el  valor  Ftambien  es  estadfsticamente  muy  significativo,  lo 
que  indica  que,  en  conjunto,  todas  las  variables  tienen  efecto  significativo  en  el  gasto  de  con¬ 
sumo.  El  valor  R 2  tambien  es  muy  alto. 

Por  supuesto,  casi  siempre  existe  cierto  grado  de  colinealidad  entre  las  variables  economicas. 
Con  tal  de  que  no  sea  exacto  se  pueden  estimar  los  parametros  del  modelo.  Por  el  momento,  lo 
unico  que  se  puede  decir  es  que,  en  el  presente  ejemplo,  la  colinealidad,  si  la  hay,  no  parece  muy 
marcada.  Sin  embargo,  en  la  section  10.7  presentamos  algunas  pruebas  de  diagnostico  para 
detectar  la  colinealidad  y  reexaminar  la  funcion  de  consumo  de  Estados  Unidos  para  determinar 
si  le  afecta  el  problema  de  la  colinealidad. 


10.7  Deteccion  de  la  multicolinealidad 


Despues  de  estudiar  las  caracteristicas  y  las  consecuencias  de  la  multicolinealidad,  el  interrogate 
natural  es:  (',como  conocer  la  presencia  de  colinealidad  en  cualquier  situation  dada,  en  especial  en 
modelos  con  mas  de  dos  variables  explicativas?  Aqui  es  util  la  advertencia  de  Kmenta: 

1.  La  multicolinealidad  es  una  cuestion  de  grado  y  no  de  clase.  La  distincion  importante  no  es 
entre  presencia  o  ausencia  de  multicolinealidad,  sino  entre  sus  diferentes  grados. 

2.  Como  la  multicolinealidad  se  refiere  a  la  condition  de  las  variables  explicativas  que  son  no 
estocasticas  por  supuestos,  es  una  caracteristica  de  la  muestra  y  no  de  la  poblacion. 

Por  consiguiente,  no  es  necesario  “llevar  a  cabo  pruebas  sobre  multicolinealidad”,  pero,  si  se 
desea,  es  posible  medir  su  grado  en  cualquier  muestra  determinada.17 

Como  la  multicolinealidad  es  en  esencia  un  fenomeno  de  tipo  muestral  que  surge  de  infor¬ 
mation  sobre  todo  no  experimental  recopilada  en  la  mayoria  de  las  ciencias  sociales,  no  hay  un 
metodo  unico  para  detectarla  o  medir  su  fuerza.  Lo  que  se  tiene  en  realidad  son  ciertas  reglas 
practicas,  algunas  informales  y  otras  formales,  pero  todas  reglas  practicas.  Consideremos  algu¬ 
nas  de  ellas. 

1 .  Una  R 2  elevada  pero  pocas  razones  t  significativas.  Como  ya  mencionamos,  es  un  sin- 
toma  “clasico”  de  multicolinealidad.  Si  R2  es  alta,  es  decir,  esta  por  encima  de  0.8,  la  prueba  F, 
en  la  mayoria  de  los  casos,  rechazara  la  hipotesis  de  que  los  coeficientes  parciales  de  pendiente 
son  simultaneamente  iguales  a  cero,  pero  las  pruebas  t  individuals  mostraran  que  ningun  coefi¬ 
ciente  partial  de  pendiente,  o  muy  pocos,  son  estadisticamente  diferentes  de  cero.  Demostramos 
lo  anterior  con  claridad  en  el  ejemplo  de  consumo-ingreso-riqueza. 

Aunque  este  diagnostico  es  razonable,  su  desventaja  es  que  “es  demasiado  fuerte,  en  el  sen- 
tido  de  que  la  multicolinealidad  se  considera  danina  unicamente  cuando  no  se  puede  separar  la 
totalidad  de  las  influences  de  las  variables  explicativas  sobre  7”. 18 


17  Jan  Kmenta,  Elements  of  Econometrics,  2a.  ed.,  Macmillan,  Nueva  York,  1 986,  p.  431 . 

18  ibid.,  p.  439. 
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2.  Altas  correlaciones  entre  parejas  de  regresoras.  Otra  regia  practica  recomendable  con- 
siste  en  observar  el  coeficiente  de  correlacion  de  orden  cero  o  entre  dos  regresoras.  Si  este  es 
alto,  digamos,  superior  a  0.8,  la  multicolinealidad  es  un  problema  grave.  La  desventaja  con  este 
criterio  es  que,  aunque  las  altas  correlaciones  de  orden  cero  pueden  sugerir  la  presencia  de  coli¬ 
nealidad,  no  es  necesario  que  dichas  correlaciones  sean  altas  para  tener  colinealidad  en  un  deter- 
minado  caso  especifico.  En  terminos  un  poco  tecnicos:  las  correlaciones  de  orden  cero  elevadas 
son  una  condition  suficiente  pero  no  necesaria  para  la  existencia  de  multicolinealidad,  debido 
a  que  puede  existir  a  pesar  de  que  las  correlaciones  de  orden  cero  o  correlaciones  simples  sean 
comparativamente  bajas  (es  decir,  inferiores  a  0.50).  Para  apreciar  esta  relacion,  suponga  un 
modelo  con  cuatro  variables: 

Yi  =  P  i  +  P2X2  i  +  PiXv  +  P4X4  i  +  Uj 


y  suponga  que 


X4  i  —  X2X2  i  +  A.3AL3/ 

donde  a2  y  A. 3  son  constantes,  sin  ser  las  dos  iguales  a  cero.  Obvio,  X4  es  una  combinacion  lineal 
exacta  de  X2  y  X3,  que  da  Rj , 3  =  1 ,  el  coeficiente  de  determinacion  en  la  regresion  de  X4  sobre 
X2yX2. 

Ahora  recordemos  la  formula  (7.1 1.5)  del  capitulo  7  para  escribir 


R 


2  _ 

4.2  3  — 


rj2  +  r43  ~  2^42^43^23 


1  —  r 


2 

23 


(10.7.1) 


Pero,  como  R422  —  1  por  la  existencia  de  colinealidad  perfecta,  obtenemos 


1  = 


r42  +  >'43  -  2r42r4  3r2  3 


1  —  r 


2 

23 


(10.7.2) 


No  es  dificil  ver  que  (10.7.2)  se  satisface  con  r42  =  0.5,  r4 3  =  0.5  y  r2 3  =  —0.5,  que  no  son  va- 
lores  muy  altos. 

Por  consiguiente,  en  los  modelos  donde  hay  mas  de  dos  variables  explicativas,  la  correlacion 
simple  o  de  orden  cero  no  proporciona  una  guia  infalible  sobre  la  presencia  de  multicolinealidad. 
Claro  que  si  solo  existen  dos  variables  explicativas,  bastaran  las  correlaciones  de  orden  cero. 

3.  Examen  de  las  correlaciones  parciales.  Debido  al  problema  recien  descrito,  que  se  basa 
en  correlaciones  de  orden  cero,  Farrar  y  Glauber  sugieren  que  deben  observarse,  en  lugar  de 
ellas,  los  coeficientes  de  correlacion  parcial.19  De  esta  forma,  en  la  regresion  de  Y  sobre  X2,  X^  y 
X4,  si  se  encuentra  que  Rf  234  es  muy  elevada  pero  r^.34,  r^3  24  y  rf4_23  son  comparativamente 
bajas,  esto  puede  sugerir  que  las  variables  X2,  X3  y  X4  estan  muy  intercorrelacionadas  y  que  por 
lo  menos  una  de  estas  variables  es  superflua. 

Si  bien  puede  ser  util  un  estudio  de  correlaciones  parciales,  nada  garantiza  que  proporcionen 
una  guia  infalible  sobre  multicolinealidad,  pues  puede  suceder  que  tanto  R2  como  todas  las  co¬ 
rrelaciones  parciales  sean  lo  bastante  altas.  Sin  embargo,  y  tal  vez  mas  importante,  C.  Robert 
Wichers  mostro20  que  la  prueba  de  correlacion  parcial  de  Farrar-Glauber  es  ineficaz  en  el  sentido 


19D.E.  Farrary  R.R.  Glauber,  "Multicollinearity  in  Regression  Analysis:  The  Problem  Revisited",  Review  of 
Economics  and  Statistics,  vol.  49,  1 967,  pp.  92-107. 

20  "The  Detection  of  Multicollinearity:  A  Comment",  Review  of  Economics  and  Statistics,  vol.  57,  1 975, 
pp.  365-366. 
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de  que  una  determinada  correlacion  parcial  puede  ser  compatible  con  diferentes  patrones  de 
multicolinealidad.  La  prueba  de  Farrar-Glauber  tambien  recibio  fuertes  criticas  de  T.  Krishna 
Kumar,21  John  O’Hagan  y  Brendan  McCabe.22 

4.  Regresiones  auxiliares.  Como  la  multicolinealidad  surge  porque  una  o  mas  de  las  regre- 
soras  son  combinaciones  lineales  exactas  o  aproximadas  de  las  demas  regresoras,  una  forma 
de  determinar  cual  variable  X  esta  relacionada  con  las  demas  variables  X  es  efectuar  la  regre¬ 
sion  de  cada  X,  sobre  las  variables  X  restantes  y  calcular  la  R2  correspondiente,  que  se  designa 
R2;  cada  una  de  estas  regresiones  se  denomina  regresion  auxiliar,  auxiliar  a  la  regresion  princi¬ 
pal  de  Y  sobre  las  X.  Asi,  conforme  a  la  relacion  entre  F  y  R2  establecida  en  (8.4.11),  la  variable 


Fi  = 


(!  “  Rl-X2Xy~Xk)/(n-k  +  !) 


(10.7.3) 


sigue  la  distribution  F  con  k  —  2  y  n  —  k  +  1  gl.  En  la  ecuacion  (10.7.3),  n  representa  el  ta- 
mano  de  la  muestra,  k  representa  el  numero  de  variables  explicativas  incluyendo  el  intercepto  y 
R2  x 2x3-xk  es  coeficiente  de  determination  en  la  regresion  de  la  variable  X,  sobre  las  variables 
Xrestantes.23 

Si  la  F  calculada  excede  a  la  F,  critica  en  el  nivel  de  significancia  seleccionado,  se  dice  que 
la  X,  particular  es  colineal  con  las  demas  X;  si  no  excede  a  la  F;  critica,  se  dice  que  esta  no  es 
colineal  con  las  demas  X,  en  cuyo  caso  se  puede  mantener  la  variable  en  el  modelo.  Si  F, 
es  estadisticamente  significativa,  aun  hay  que  decidir  si  la  X,  en  consideration  debe  eliminarse  del 
modelo.  Analizaremos  este  aspecto  con  mas  detalle  en  la  section  10.8. 

Sin  embargo,  este  metodo  no  carece  de  desventajas,  pues 


...  si  la  multicolinealidad  comprende  solo  unas  cuantas  variables,  de  forma  que  las  regresiones  auxi¬ 
liares  no  sufran  de  multicolinealidad  extensa,  los  coeficientes  estimados  pueden  revelar  la  naturaleza 
de  la  dependencia  lineal  entre  las  regresoras.  Por  desgracia,  si  existen  diversas  asociaciones  lineales 
complejas,  este  ejercicio  de  ajuste  de  curva  puede  no  tener  gran  valor,  pues  sera  dificil  identificar  las 
interrelaciones  separadas.24 


En  lugar  de  probar  formalmente  todos  los  valores  R2  auxiliares,  se  puede  adoptar  la  regia 
practica  de  Klein,  que  sugiere  que  la  multicolinealidad  puede  ser  un  problema  complicado  sola- 
mente  si  la  R2  obtenida  de  una  regresion  auxiliar  es  mayor  que  la  R2  global,  es  decir,  si  se  obtiene 
de  la  regresion  de  Y  sobre  todas  las  regresoras.25  Por  cierto,  al  igual  que  todas  las  demas  reglas 
practicas,  esta  debe  utilizarse  con  buen  criterio. 

5.  Valores  propios  e  In  dice  de  condicion.  Mediante  EViews  y  Statu  podemos  calcular  los 
valores  propios  y  el  indice  de  condicion  para  diagnosticar  la  multicolinealidad.  No  analizare¬ 
mos  aqui  el  tema  de  los  valores  propios,  pues  implicaria  abordar  temas  de  algebra  matricial,  fuera 


21  "Multicollinearity  in  Regression  Analysis",  Review  of  Economics  and  Statistics,  vol.  57,  1 975,  pp.  366-368. 

22  "Tests  for  the  Severity  of  Multicollinearity  in  Regression  Analysis:  A  Comment",  Review  of  Economics  and 
Statistics,  vol.  57,  1975,  pp.  368-370. 

23  Por  ejemplo,  R22  se  obtiene  mediante  la  regresion  de  X2;  de  la  siguiente  manera:  X2 /  =  01+  03X3/  + 

O4  X4/  +  •  ■  •  +  Ok  Xki  +  Uj . 

24  George  G.  Judge,  R.  Carter  Hill,  William  E.  Griffiths,  Helmut  Liitkepohl  y  Tsoung-Chao  Lee,  Introduction  to 
the  Theory  and  Practice  of  Econometrics,  John  Wiley  &  Sons,  Nueva  York,  1 982,  p.  621 . 

25  Lawrence  R.  Klein,  An  Introduction  to  Econometrics,  Prentice-Hall,  Englewood  Cliffs,  Nueva  Jersey,  1 962, 
p.  101 . 
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del  alcance  de  este  libro.  Sin  embargo,  a  partir  de  estos  valores  propios  puede  derivarse  lo  que  se 
conoce  como  numero  de  condicion  k,  definido  como 


Valor  propio  maximo 
Valor  propio  minimo 


y  el  indice  de  condicion  (IC),  definido  como 


IC  = 


Valor  propio  maximo 


Valor  propio  minimo 


=  Vk 


Entonces  tenemos  esta  regia  practical  Si  k  esta  entre  100  y  1  000,  existe  una  multicolinealidad 
que  va  de  moderada  a  fuerte,  mientras  que  si  excede  de  1  000,  existe  multicolinealidad  grave.  De 
otro  modo,  si  cl  IC  (  =  y/k)  esta  entre  10  y  30,  hay  multicolinealidad  entre  moderada  y  fuerte,  y 
si  excede  de  30,  una  multicolinealidad  grave. 

Para  el  ejemplo  ilustrativo  del  apendice  7A.5,  el  valor  propio  mas  pequeno  es  3.786  y  el  valor 
propio  mas  grande  es  187.5269,  por  lo  que  k  —  187.5269/3.786,  o  alrededor  de  49.53.  Por  tanto, 
IC  =  74933  =  7.0377.  Tanto  k  como  IC  indican  que  no  existe  un  problema  grave  de  colinea- 
lidad.  Por  cierto,  observe  que  un  valor  propio  bajo  (en  relacion  con  el  valor  propio  maximo)  es, 
por  lo  general,  indicativo  de  dependences  casi  lineales  en  los  datos. 

Algunos  autores  consideran  que  el  Indice  de  condicion  es  el  mejor  diagnostico  de  multi¬ 
colinealidad  disponible.  Sin  embargo,  esta  opinion  no  es  muy  aceptada.  Asi,  el  IC  es  solo  una 
regia  practica,  quiza  un  poco  mas  compleja.  Para  mayores  detalles,  el  lector  puede  consultar  las 
referencias.26 

6.  Tolerancia  y  factor  de  inflacion  de  la  varianza.  Ya  vimos  el  FIV  y  la  TOL.  Conforme 
R2  — el  coeficiente  de  determinacion  en  la  regresion  de  la  rcgrcsora  Xj  sobre  las  regresoras  res¬ 
tates  del  modelo —  se  aproxima  a  la  unidad,  es  decir,  conforme  se  incrementa  la  colinealidad  de 
Xj  con  las  demas  regresoras,  FIV  tambien  aumenta,  y  en  el  limite  puede  ser  infinito. 

Algunos  autores  utilizan,  por  consiguiente,  el  FIV  como  indicador  de  la  multicolinealidad: 
entre  mayor  es  el  valor  del  FIVy,  mayor  “problema”  o  colinealidad  tiene  la  variable  Xj.  (',Pcro, 
cuanto  debe  ascender  el  FIV  antes  de  que  una  regresora  se  convierta  en  un  problema?  Como 
regia  practica,  si  el  FIV  de  una  variable  es  superior  a  10  (esto  sucede  si  R2  excede  de  0.90),  se 
dice  que  esa  variable  es  muy  colineal.27 

Desde  luego,  puede  utilizarse  TOL,  como  medida  de  la  multicolinealidad,  en  vista  de  su  estre- 
cha  conexion  con  FIV,.  Mientras  mas  cerca  este  TOL,  de  cero,  mayor  sera  el  grado  de  colineali¬ 
dad  de  esa  variable  respecto  de  las  demas  regresoras.  Por  otra  parte,  mientras  mas  cerca  este  TOL, 
de  1,  mayor  sera  la  evidencia  de  que  Xj  no  es  colineal  con  las  demas  regresoras. 

El  FIV  (o  tolerancia)  como  medida  de  colinealidad  no  esta  fibre  de  critica.  Como  indica 
(10.5.4),  var  (/},)  depende  de  tres  factores:  a2,  xj  y  FIV,.  Un  FIV  alto  se  contrarresta  por 
una  ct2  baja  o  una  J2xj  alta.  De  otra  forma:  un  FIV  alto  no  es  condicion  necesaria  ni  suficiente 
para  obtener  varianzas  y  errores  estandar  altos.  Por  consiguiente,  la  alta  multicolinealidad,  como 
la  mide  un  FIV  alto,  puede  no  necesariamente  ocasionar  errores  estandar  altos.  En  todo  este  ana- 
lisis,  los  terminos  alto  y  bajo  son  relativos. 

7.  Diagrama  de  dispersion.  Es  una  buena  practica  usar  un  diagrama  de  dispersion  para  ver 
como  se  relacionan  las  diversas  variables  de  un  modelo  de  regresion.  La  figura  10.4  presenta  el 


26 Vease  sobre  todo  D.A.  Belsley,  E.  Kuh  y  R.E.  Welsch,  Regression  Diagnostics:  Identifying  influential  Data  and 
Sources  of  Collinearity,  John  Wiley  &  Sons,  Nueva  York,  1980,  capftulo  3.  Sin  embargo,  este  libro  no  es  para 
principiantes. 

27  Vease  David  G.  Kleinbaum,  Lawrence  L.  Kupper  y  Keith  E.  Muller,  Applied  Regression  Analysis  and  Other 
Multivariate  Methods,  2a.  ed.,  PWS-Kent,  Boston,  Massachusetts,  1 988,  p.  21 0. 
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FIGURA  10.4 


Diagrama  de  dispersion 
de  los  datos  del  ejemplo 


10.2. 
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diagrama  de  dispersion  del  ejemplo  de  consumo  analizado  en  la  seccion  anterior  (ejemplo  10.2). 
Se  trata  de  un  diagrama  de  cuatro  por  cuatro  cuadros  porque  hay  cuatro  variables  en  el  modelo, 
una  variable  dependiente  (C)  y  tres  variables  explicativas:  ingreso  personal  disponible  real  (Yd), 
riqueza  real  (W)  y  tasa  de  interes  real  (I). 

Primero  considere  la  diagonal  principal,  de  la  esquina  superior  izquierda  a  la  esquina  inferior 
derecha.  No  hay  puntos  de  dispersion  en  estos  cuadros  en  la  diagonal  principal.  Si  los  hubiera, 
tendrian  un  coeficiente  de  correlacion  de  1,  pues  las  graficas  serian  de  una  variable  dada  sobre 
si  misma.  Los  cuadros  fuera  de  la  diagonal  muestran  intercorrelaciones  entre  las  variables.  Por 
ejemplo,  el  cuadro  de  riqueza  (W)  muestra  que  la  riqueza  y  el  ingreso  estan  muy  correlacionados 
(el  coeficiente  de  correlacion  entre  los  dos  es  0.97),  pero  no  de  manera  perfecta.  Si  tuvieran  co¬ 
rrelacion  perfecta  (es  decir,  si  tuvieran  un  coeficiente  de  correlacion  de  1),  no  habriamos  podido 
estimar  la  regresion  (10.6.6)  porque  habria  una  relacion  lineal  exacta  entre  riqueza  e  ingreso.  El 
diagrama  de  dispersion  tambien  muestra  que  la  tasa  de  interes  no  esta  muy  correlacionada  con 
las  otras  tres  variables. 

Como  la  funcion  de  diagrama  de  dispersion  se  incluye  ahora  en  varios  programas  estadisticos, 
este  diagnostico  debe  tomarse  en  consideracion  junto  con  los  que  estudiamos  antes.  No  obstante, 
hay  que  recordar  que  las  correlaciones  simples  entre  parejas  de  variables  pueden  no  ser  un  indi- 
cador  definitivo  de  colinealidad,  como  ya  senalamos. 

Para  concluir  la  deteccion  de  la  multicolinealidad,  reiteramos  que  los  diversos  metodos 
son  en  esencia  “expediciones  de  pesca”,  pues  no  puede  decirse  cuales  funcionan  en  una  aplica- 
cion  particular.  Sin  embargo,  no  se  puede  hacer  mucho  al  respecto,  pues  la  multicolinealidad  es 
un  problema  especifico  de  una  muestra  dada  sobre  la  cual  el  investigador  puede  no  tener  mucho 
control,  sobre  todo  si  los  datos  son  no  experimentales  por  naturaleza,  como  es  lo  comun  para  los 
investigadores  de  las  ciencias  sociales. 

Nuevamente,  como  una  parodia  de  multicolinealidad,  Goldberger  cita  diversas  formas  de 
detectar  la  micronumerosidad,  como  el  desarrollo  de  valores  criticos  del  tamano  de  la  muestra, 
n,  tales  que  la  micronumerosidad  es  un  problema  solo  si  el  tamano  real  de  la  muestra  n  es  mas 
pequeno  que  n.  Lo  importante  de  la  parodia  de  Goldberger  es  destacar  que  el  tamano  pequeno 
de  la  muestra  y  la  falta  de  variabilidad  en  las  variables  explicativas  pueden  ocasionar  problemas 
por  lo  menos  tan  graves  como  los  debidos  a  la  multicolinealidad. 
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10.8  Medidas  correctivas 


<,Quc  puede  hacerse  si  la  multicolinealidad  es  grave?  Hay  dos  posibilidades:  1)  no  hacer  nada  o 
2)  seguir  algunas  reglas  practicas. 


No  hacer  nada 

Blanchard  expresa  de  la  siguiente  manera  la  corriente  de  pensamiento  que  aboga  por  “no  hacer 
nada”:28 

Cuando  los  estudiantes  efectuan  por  primera  vez  la  regresion  de  mlnimos  cuadrados  ordinarios 
(MCO),  el  primer  problema  que  suelen  afrontar  es  el  de  la  multicolinealidad.  Muchos  concluyen  que 
hay  algo  malo  con  los  MCO;  otros  recurren  a  nuevas  y  con  frecuencia  creativas  tecnicas  a  fin  de  darle 
la  vuelta  al  problema.  Pero  eso  esta  mal.  La  multicolinealidad  es  la  voluntad  de  Dios,  no  un  problema 
con  los  MCO  ni  con  la  tecnica  estadistica  en  general. 

Lo  que  Blanchard  afirma  es  que  la  multicolinealidad  es  en  esencia  un  problema  de  deficiencia 
de  datos  (de  nuevo,  micronumerosidad),  y  en  algunas  ocasiones  no  hay  opcion  respecto  de  los 
datos  disponibles  para  el  analisis  empirico. 

Asimismo,  no  es  que  todos  los  coeficientes  en  un  modelo  de  regresion  sean  estadisticamente 
insignificantes.  Al  contrario,  aunque  no  se  puedan  estimar  uno  o  mas  coeficientes  de  regresion 
con  gran  precision,  es  posible  calcular  una  combinacion  lineal  de  ellos  (es  decir,  una  funcion  es¬ 
timable)  con  relativa  eficiencia.  Como  vimos  en  (10.2.3),  a  se  calcula  de  forma  unica,  aunque  no 
puedan  estimarse  sus  dos  componentes  dados  ahi  de  manera  individual.  Algunas  veces  esto  es  lo 
mejor  que  se  puede  hacer  con  un  determinado  conjunto  de  datos.29 


Procedimientos  de  reglas  practicas 

Se  pueden  intentar  las  siguientes  reglas  practicas  para  abordar  el  problema  de  la  multicolineali¬ 
dad;  el  exito  depende  de  la  gravedad  de  la  multicolinealidad. 

1.  Informacion  a  priori.  Suponga  que  consideramos  el  modelo 

Y,  —  ft  +  ft  %2i  +  P3X3  i  +  iii 

donde  Y  —  consumo,  X2  —  ingreso  y  A3  =  riqueza.  Como  ya  mencionamos,  las  variables  ingreso 
y  riqueza  tienden  a  ser  muy  colineales.  Pero  suponga  que,  a  priori,  creemos  que  ft  =  0.10ft;  es 
decir,  la  tasa  de  cambio  del  consumo  respecto  de  la  riqueza  es  una  decima  parte  de  la  correspon- 
diente  respecto  del  ingreso.  Podemos  entonces  efectuar  la  siguiente  regresion: 

Yi  —  ft  +  P2X21  +  0.10  fcXn  +  Hi 
—  ft  +  ft  Xi  +  Uj 

donde  X  —  36;  +  0. 1X3;.  Una  vez  obtenido  /3 2  podemos  estimar  /I3  a  partir  de  la  relacion  postu- 
lada  entre  ft  y  ft. 

/,C6ino  obtener  informacion  a  priori ?  Puede  provenir  de  un  trabajo  empirico  anterior,  en 
donde  el  problema  de  colinealidad  resulto  ser  menos  grave  o  de  la  teoria  relevante  que  soporta 


28  O.J.  Blanchard,  "Comment",  journal  of  Business  and  Economic  Statistics,  vol.  5,  1 967,  pp.  449-451 .  La  cita 
se  toma  de  Peter  Kennedy,  A  Guide  to  Econometrics,  4a.  ed.,  MIT  Press,  Cambridge,  Massachusetts,  1 998, 
p.  190. 

29  Hay  un  interesante  analisis  sobre  este  tema  en  J.  Conlisk,  "When  Collinearity  is  Desirable",  Western  Econo¬ 
mic  journal,  vol.  9,  1971,  pp.  393-407. 
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el  campo  de  estudio.  Por  ejemplo,  en  la  funcion  de  production  tipo  Cobb-Douglas  (7.9.1),  si  es- 
peramos  que  prevalezcan  los  rendimientos  constantes  a  escala,  entonces  (02  +  ft)  =  1 ,  en  cuyo 
caso  podemos  efectuar  la  regresion  (8.6.14),  con  la  regresion  de  la  razon  producto-trabajo  sobre 
la  razon  capital-trabajo.  Si  existe  colinealidad  entre  el  trabajo  y  el  capital,  como  suele  ser  el  caso 
en  la  mayor  parte  de  la  informacion  muestral,  dicha  transformation  puede  reducir  o  eliminar  el 
problema  de  colinealidad.  Pero  es  preciso  hacer  una  advertencia  aqui  respecto  de  la  imposition 
de  esas  restricciones  a  priori,  “. . .  pues  en  general  se  desean  probar  las  predicciones  a  priori  de  la 
teoria  economica  en  lugar  de  imponerlas  simplemente  sobre  los  datos  para  los  cuales  pueden  no 
ser  validas”.30  Sin  embargo,  sabemos,  de  la  seccion  8.6,  como  probar  explicitamente  la  validez 
de  tales  restricciones. 

2.  Combinacion  de  informacion  de  corte  transversal  y  de  series  de  tiempo.  Una  variante 
de  la  tecnica  de  informacion  externa  o  a  priori  es  la  combinacion  de  datos  de  corte  transversal 
y  de  series  de  tiempo,  conocida  como  mezcla  de  datos.  Suponga  que  deseamos  estudiar  la  de- 
manda  de  automoviles  en  Estados  Unidos  y  que  tenemos  informacion  de  series  de  tiempo  sobre 
el  numero  de  automoviles  vendidos,  su  precio  promedio  y  el  ingreso  del  consumidor.  Ademas, 
suponga  que 

In  Yt  =  0\  +  02  In  P i  +  02  In  4  +  ut 

donde  Y  —  numero  de  automoviles  vendidos,  P  —  precio  promedio,  /  =  ingreso  y  t  —  tiempo.  El 
objetivo  es  estimar  la  elasticidad  precio  02  y  la  elasticidad  ingreso  02. 

En  la  informacion  de  series  de  tiempo,  las  variables  precio  e  ingreso  tienden  a  ser  muy  colinea- 
les.  Por  consiguiente,  si  deseamos  efectuar  la  anterior  regresion,  debemos  enfrentar  el  problema 
usual  de  multicolinealidad.  Tobin  sugiere  una  salida  a  esto.31  Sostiene  que  si  hay  informacion 
de  corte  transversal  (por  ejemplo,  informacion  generada  a  traves  de  paneles  de  consumidores 
o  estudios  sindicados  realizados  por  varias  agencias  privadas  y  estatales),  puede  obtenerse  una 
estimacion  relativamente  confiable  de  la  elasticidad  ingreso  02,  pues,  con  tal  informacion,  que 
esta  en  un  punto  en  el  tiempo,  los  precios  no  varian  mucho.  Sea  02  la  elasticidad  ingreso  estimada 
a  partir  de  los  datos  de  corte  transversal.  Con  esta  estimacion,  la  anterior  regresion  de  series  de 
tiempo  se  escribe  como 

Y*  —  01+02  In  P i  +  Ut 

donde  Y*  —  In  Y  —  02  In  /,  es  decir,  Y*  representa  ese  valor  de  Y  despues  de  eliminarle  el  efecto 
del  ingreso.  Ahora  se  puede  obtener  una  estimacion  de  la  elasticidad  precio  02  de  la  regresion 
anterior. 

Aunque  es  una  tecnica  atractiva,  la  mezcla  de  datos  de  series  de  tiempo  y  de  corte  transversal 
de  esta  forma  puede  crear  problemas  de  interpretation  porque  se  supone  implicitamente  que  la 
elasticidad  ingreso  estimada  a  partir  de  datos  de  corte  transversal  es  igual  a  la  que  se  habrla  obte- 
nido  a  partir  de  un  analisis  puro  de  series  de  tiempo.32  Sin  embargo,  se  ha  empleado  esta  tecnica 
en  muchas  aplicaciones  y  es  en  particular  valiosa  en  situaciones  en  donde  las  estimaciones  de 
corte  transversal  no  varian  sustancialmente  de  una  seccion  transversal  a  otra.  Un  ejemplo  de  esta 
tecnica  se  encuentra  en  el  ejercicio  10.26. 

3.  Elimination  de  una(s)  variable(s)  y  el  sesgo  de  especiflcacion.  A1  enfrentar  el  problema 
de  multicolinealidad  grave,  una  de  las  soluciones  “mas  simples”  consiste  en  omitir  del  modelo 


30  Mark  B.  Stewart  y  Kenneth  F.  Wallis,  Introductory  Econometrics,  2a.  ed.,  John  Wiley  &  Sons,  A  Halstead 
Press  Book,  Nueva  York,  1981,  p.  154. 

31 J.  Tobin,  "A  Statistical  Demand  Function  for  Food  in  the  U.S.A.",  journal  of  the  Royal  Statistical  Society, 

Ser.  A,  1950,  pp.  113-141. 

32  Hay  un  analisis  complete  y  una  aplicacion  de  la  tecnica  de  datos  combinados  en  Edwin  Kuh,  Capital  Stock 
Growth:  A  Micro-Econometric  Approach,  North-Holland  Publishing  Company,  Amsterdam,  1963,  capftulos  5 
y  6. 
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una  de  las  variables  colineales.  Asl,  en  el  ejemplo  consumo-ingreso-riqueza,  al  omitir  la  variable 
riqueza,  obtenemos  la  regresion  (10.6.4),  la  cual  muestra  que  mientras  en  el  modelo  original  la 
variable  ingreso  no  era  estadisticamente  significativa,  ahora  se  vuelve  “altamente”  significativa. 

Sin  embargo,  al  eliminar  una  variable  del  modelo  se  puede  incurrir  en  un  sesgo  de  especifica- 
cion  o  error  de  especificacion.  El  sesgo  de  especificacion  surge  de  la  especificacion  incorrecta 
del  modelo  utilizado  en  el  analisis.  Asi,  si  la  teoria  economica  afirma  que  tanto  el  ingreso  como 
la  riqueza  deben  incluirse  en  el  modelo  que  explica  el  gasto  de  consumo,  al  eliminar  la  variable 
riqueza  se  incurriria  en  un  sesgo  de  especificacion. 

Aunque  estudiaremos  el  tema  del  sesgo  de  especificacion  en  el  capitulo  13,  recuerde  la  idea 
general  sobre  este  dada  en  la  seccion  7.7.  Si  el  modelo  verdadero  es 

Yi  —  Pi  +  Pi  Aj  +  Pi  A;  +  ut 

pero  se  ajusta  de  manera  erronea  el  modelo 

Yt  =  bx  +  bl2X2i  +  in  (10.8.1) 

se  demuestra  que  (vease  el  apendice  13A.1) 

E(bl2)  =  P2  +  Pibi2  (10.8.2) 

donde  bn  —  coeficiente  de  la  pendiente  en  la  regresion  de  A3  sobre  A.  Por  consiguiente,  es 
obvio  de  (10.8.2)  que  bn  sera  una  estimacion  sesgada  de  Pi  en  la  medida  en  que  bn  sea  diferente 
de  cero  (se  supone  que  Pi  es  diferente  de  cero;  en  caso  contrario,  no  tendria  sentido  incluir  A3 
en  el  modelo  original).33  Claro  esta  que  si  bn  fuera  cero,  para  empezar  no  habria  problema  de 
multicolinealidad.  Tambien  es  claro  de  (10.8.2)  que  si  632  y  Pi  son  positivas  (o  ambas  negativas), 
E(b\ 2)  sera  mayor  que  Pi',  por  tanto,  en  promedio,  bn  sobreestimara  a  Pi,  para  ocasionar  un  sesgo 
positivo.  De  la  misma  forma,  si  el  producto  bnPi  es  negativo,  en  promedio,  bn  subestimara  a  pi, 
para  ocasionar  un  sesgo  negativo. 

Del  analisis  anterior,  es  claro  que  eliminar  una  variable  del  modelo  para  resolver  el  problema 
de  la  multicolinealidad  puede  producir  un  sesgo  de  especificacion.  Por  tanto,  el  remedio  suele  ser 
peor  que  la  enfermedad  en  algunas  situaciones  porque,  mientras  que  la  multicolinealidad  puede 
obstaculizar  la  estimacion  precisa  de  los  parametros  del  modelo,  la  omision  de  una  variable  gene- 
raria  graves  equivocaciones  respecto  de  los  verdaderos  valores  de  los  parametros.  Recuerde  que 
los  estimadores  de  MCO  son  MELI  a  pesar  de  la  presencia  de  multicolinealidad  perfecta. 

4.  Transformation  de  variables.  Suponga  que  tenemos  informacion  de  series  de  tiempo 
sobre  el  gasto  de  consumo,  el  ingreso  y  la  riqueza.  Una  razon  de  la  alta  multicolinealidad  entre 
el  ingreso  y  la  riqueza  en  tal  informacion  es  que,  con  el  tiempo,  las  dos  variables  tienden  a  mo- 
verse  en  la  misma  direction.  Una  forma  de  reducir  esta  dependencia  es  proceder  de  la  siguiente 
manera. 

Si  la  relation 


Yt  =  Pi  +  PiX2t  +  P3X1,  +  ut  (10.8.3) 

se  cumple  en  el  periodo  t,  tambien  debe  cumplirse  en  el  periodo  t  —  1 ,  pues  el  origen  del  tiempo 
es,  de  todas  formas,  arbitrario.  Por  consiguiente,  tenemos  que: 

Yt- 1  —  Pi  +  PiXij- 1  +  PiXit—i  +  lit—  1  (10.8.4) 

Si  restamos  (10.8.4)  de  (10.8.3)  obtenemos 

Y,  -  Y,-!  =  p2(X2t  -  A2,,_!)  +  pi(Xit  -  X 3,(_0  +  (10.8.5) 


33  Ademas,  observe  que  si  bn  no  se  acerca  a  cero  a  medida  que  el  tamano  de  la  muestra  aumenta  indefini- 
damente,  entonces  bn  no  solo  sera  sesgado,  sino  tambien  inconsistente. 
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donde  vt  =  it,  —  ut-\.  La  ecuacion  (10.8.5)  se  conoce  como  la  forma  en  primeras  diferencias 
porque  no  se  hace  la  regresion  sobre  las  variables  originales,  sino  sobre  las  diferencias  de  los 
valores  sucesivos  de  dichas  variables. 

El  modelo  de  regresion  que  utiliza  primeras  diferencias  a  menudo  reduce  la  gravedad  de  la 
multicolinealidad  porque,  aunque  los  niveles  de  X2  y  esten  muy  correlacionados,  no  hay  razon 
a  priori  para  pensar  que  sus  diferencias  tambien  lo  estan. 

Como  veremos  en  los  capitulos  que  estudian  la  econometria  de  las  series  de  tiempo,  una 
ventaja  incidental  de  la  transformacion  de  primeras  diferencias  consiste  en  que  puede  hacer  que 
una  serie  de  tiempo  no  estacionaria  se  convierta  en  estacionaria.  En  dichos  capitulos  veremos  la 
importancia  de  las  series  de  tiempo  estacionarias.  Como  apreciamos  en  el  capitulo  1,  de  manera 
muy  general,  una  serie  de  tiempo,  por  ejemplo  Yt,  es  estacionaria  si  su  media  y  varianza  no  cam- 
bian  de  manera  sistematica  a  traves  del  tiempo. 

Otra  transformacion  comun  en  la  practica  es  la  transformacion  de  razon.  Considere  el  si- 
guiente  modelo: 


(10.8.6) 


Yt  —  P  i  +  PiXit  +  +  u, 


donde  Y  es  el  gasto  de  consumo  en  dolares  reales,  Xi  es  el  PIB  y  X,,  es  la  poblacion  total.  Como 
el  PIB  y  la  poblacion  aumentan  con  el  tiempo,  es  muy  probable  que  esten  correlacionados.  Una 
“solucion”  a  este  problema  consiste  en  expresar  el  modelo  mediante  una  base  per  capita ;  es  decir, 
dividir  (10.8.4)  entre  X3  para  obtener: 


(10.8.7) 


Dicha  transformacion  tal  vez  reduzca  la  colinealidad  en  las  variables  originales. 

Sin  embargo,  la  transformacion  que  utiliza  primeras  diferencias  o  las  transformaciones  de 
razon  crean  otros  problemas.  Por  ejemplo,  el  termino  de  error  v,  que  aparece  en  (10.8.5)  puede  no 
satisfacer  un  supuesto  del  modelo  clasico  de  regresion  lineal,  a  saber,  que  las  perturbaciones 
no  estan  serialmente  correlacionadas.  Como  veremos  en  el  capitulo  12,  si  el  termino  de  perturba- 
cion  u,  original  no  esta  serialmente  correlacionado,  el  termino  de  error  v,  obtenido  antes  estara, 
en  la  mayoria  de  los  casos,  serialmente  correlacionado.  De  nuevo,  el  remedio  puede  ser  peor  que 
la  enfermedad.  Ademas,  se  pierde  una  observation  debido  al  procedimiento  de  diferenciacion  y, 
por  consiguiente,  los  grados  de  libertad  se  reducen  en  1 .  En  una  muestra  pequena  esto  puede  ser 
un  factor  que  al  menos  se  debe  considerar.  Por  anadidura,  el  procedimiento  de  primeras  diferen¬ 
cias  puede  no  ser  el  adecuado  en  los  datos  de  corte  transversal,  donde  no  hay  un  ordenamiento 
logico  de  las  observaciones. 

Del  mismo  modo,  en  el  modelo  de  la  razon  (10.8.7),  el  termino  de  error 


sera  heteroscedastico,  si  el  termino  de  error  original  u,  es  homoscedastico,  como  veremos  en  el 
capitulo  1 1 .  Una  vez  mas,  el  remedio  quiza  resulte  peor  que  la  enfermedad  de  la  colinealidad. 

En  resumen,  se  debe  tener  cuidado  con  las  primeras  diferencias  o  el  metodo  de  la  razon  para 
transformar  los  datos  a  fin  de  resolver  el  problema  de  la  multicolinealidad. 

5.  Datos  nuevos  0  adicionales.  Como  la  multicolinealidad  es  una  caracteristica  de  la  mues¬ 
tra,  es  posible  que  en  otra  muestra  con  las  mismas  variables  la  colinealidad  no  sea  tan  grave  como 
en  la  primera.  A  veces,  con  solo  aumentar  el  tamano  de  la  muestra  (si  esto  es  posible)  se  atenua 
el  problema  de  colinealidad.  Por  ejemplo,  en  el  modelo  de  tres  variables  vimos  que: 
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Ahora,  a  medida  que  aumenta  el  tamano  de  la  muestra,  J2X2 ;  Por  1°  general  aumenta.  (pPor 
que?)  Por  consiguiente,  para  cualquier  7-23  dado,  la  varianza  de  /+  disminuira,  para  reducir  el 
error  estandar,  lo  cual  permite  estimar  de  manera  mas  precisa. 

Como  ejemplo,  considere  la  siguiente  regresion  del  gasto  de  consumo  Y  sobre  el  ingreso  X2  y 
la  riqueza  A?  basada  en  10  observaciones.34 


Y  =  24.377  +  0.871 6X2,  -  0.0349X3,- 

t=  (3.875)  (2.7726)  (-1.1595)  R2  =  0.9682 


(10.8.8) 


El  coeficiente  de  la  riqueza  en  esta  regresion  no  solo  tiene  el  signo  equivocado,  sino  que  estadisti- 
camente  no  es  significativo  en  el  nivel  de  5%.  Pero  cuando  el  tamano  de  la  muestra  se  incremento 
a  40  observaciones  (^micronumerosidad?)  se  obtuvieron  los  siguientes  resultados: 

%=  2.0907  +  0.7299X2i+  0.0605X3,  (10  8  9) 

t  —  (0.8713)  (6.0014)  (2.0014)  R2  =  0.9672 


Ahora  el  coeficiente  de  la  riqueza  no  solo  tiene  el  signo  correcto,  sino  que  es  estadisticamente 
significativo  en  el  nivel  de  5%. 

La  obtencion  de  datos  adicionales  o  “mejores”  no  siempre  es  tan  sencilla,  pues,  como  men- 
cionan  Judge  et  al. : 

Por  desgracia,  muy  pocas  veces  pueden  los  economistas  obtener  informacion  adicional  sin  incurrir  en 
altos  costos,  y  mucho  menos  pueden  seleccionar  los  valores  de  las  variables  explicativas  que  desean. 
Ademas,  al  agregar  variables  en  situaciones  no  controladas,  se  debe  tener  cuidado  de  no  agregar 
observaciones  generadas  en  un  proceso  diferente  del  asociado  al  conjunto  original  de  datos;  es  decir, 
se  debe  estar  seguro  de  que  la  estructura  economica  asociada  a  las  nuevas  observaciones  sea  igual  a 
la  estructura  original.35 

6.  Reduccion  de  la  colinealidad  en  las  regresiones  polinomiales.  En  la  seccion  7.10  estu- 
diamos  los  modelos  de  regresion  polinomial.  Una  caracteristica  especial  de  estos  modelos  es  que 
la(s)  variable(s)  explicativa(s)  aparece(n)  elevada(s)  a  diversas  potencias.  Por  tanto,  en  la  funcion 
cubica  de  costos  totales  que  implica  la  regresion  del  costo  total  sobre  la  produccion,  la  (produc¬ 
tion)2  y  la  (produccion)3,  como  en  (7.10.4),  los  diversos  terminos  de  la  produccion  van  a  estar 
correlacionados,  lo  que  dificulta  la  estimation  precisa  de  los  diversos  coeficientes  de  pendiente.36 
No  obstante,  en  la  practica  se  ha  visto  que  si  la(s)  variable(s)  explicativa(s)  esta(n)  expresada(s) 
en  forma  de  desviacion  (es  decir,  desviaciones  del  valor  medio),  la  multicolinealidad  se  reduce 
sustancialmente.  Pero,  aun  entonces,  el  problema  puede  persistir,37  en  cuyo  caso  tal  vez  convenga 
considerar  tecnicas  como  la  de  los  polinomios  ortogonales.38 

7.  Otros  metodos  de  remediar  la  multicolinealidad.  Las  tecnicas  estadisticas  multivariadas 
como  el  analisis  de  factores  y  el  de  componentes  principales,  o  como  la  regresion  en  cadena, 
son  comunes  para  “resolver”  el  problema  de  la  multicolinealidad.  Desafortunadamente,  estas 
tecnicas  estan  fuera  del  alcance  de  este  libro,  pues  no  pueden  analizarse  en  forma  competente  sin 
recurrir  al  algebra  matricial.39 


34  El  autor  agradece  a  Albert  Zucker  la  obtencion  de  los  resultados  de  las  siguientes  regresiones. 

35  Judge  et  al.,  op.  cit.,  p.  625.  Vease  tambien  la  seccion  10.9. 

36  Como  ya  mencionamos,  puesto  que  la  relacion  entre  X,  X2  y  X3  es  no  lineal,  las  regresiones  polinomiales 
no  violan  el  supuesto  de  no  multicolinealidad  del  modelo  clasico,  en  estricto  sentido. 

37  Vease  R.A.  Bradley  y  S.S.  Srivastava,  "Correlation  and  Polynomial  Regression",  American  Statistician, 
vol.  33,  1979,  pp.  11-14. 

38  Vease  Norman  Draper  y  Harry  Smith,  Applied  Regression  Analysis,  2a.  ed.,  John  Wiley  &  Sons,  Nueva  York, 
1981,  pp.  266-274. 

39  Una  explication  sencilla  de  estas  tecnicas,  desde  un  punto  de  vista  aplicado,  se  encuentra  en  Samprit 
Chatterjee  y  Bertram  Price,  Regression  Analysis  by  Example,  John  Wiley  &  Sons,  Nueva  York,  1 977,  capltulos 
7  y  8.  Vease  tambien  H.D.  Vinod,  "A  Survey  of  Ridge  Regression  and  Related  Techniques  for  Improvements 
over  Ordinary  Least  Squares",  Review  of  Economics  and  Statistics,  vol.  60,  febrero  de  1978,  pp.  121-131. 
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10.9  ;  l>  la  multicolinealidad  necesariamente  mala? 

Quiza  no,  si  el  objetivo  es  solo  la  prediccion 

Dijimos  que  si  el  linico  proposito  del  analisis  de  regresion  es  el  pronostico  o  la  prediccion,  la 
multicolinealidad  no  es  un  problema  grave,  pues,  entre  mas  alta  sea  la  R 2,  mejor  sera  la  predic¬ 
cion.40  Pero  esto  sucede  siempre  que  los  valores  de  las  variables  explicativas,  para  los  cuales 
se  desean  las  predicciones,  obedezcan  las  mismas  dependencias  lineales  casi  exactas  de  la  matriz 
X  [de  datos]  del  diseno  original”.41  Por  tanto,  si  en  una  regresion  estimada  se  encuentra  que 
X)  —  2X3  aproximadamente,  entonces,  en  una  muestra  futura  para  pronosticar  Y,  Xi  tambien  debe 
ser  aproximadamente  igual  a  2X3,  condicion  dificil  de  cumplir  en  la  practica  (vease  la  nota  35), 
en  cuyo  caso  la  prediccion  sera  cada  vez  mas  incierta.42  Mas  aun,  si  el  objetivo  del  analisis  no  es 
solo  la  prediccion  sino  tambien  la  estimacion  confiable  de  los  parametros,  la  presencia  de  una  alta 
multicolinealidad  puede  ser  un  problema  porque,  como  vimos,  genera  grandes  errores  estandar 
en  los  estimadores. 

Sin  embargo,  existen  situaciones  en  las  cuales  la  multicolinealidad  puede  no  representar  un 
problema  grave.  Es  el  caso  en  el  cual  se  tiene  una  R2  elevada  y  los  coeficientes  de  regresion  son 
significativos  individualmente  como  lo  demuestran  los  altos  valores  t.  Aun  asl,  los  diagnostics 
de  multicolinealidad,  por  ejemplo  el  indice  de  condicion,  indican  que  los  datos  presentan  colinea- 
lidad  grave.  ^Cuando  puede  presentarse  tal  situacion?  Como  menciona  Johnston: 

Esto  sucede  si  los  coeficientes  individuals  resultan  estar  numericamente  muy  por  encima  del  valor 
verdadero,  de  forma  que  el  efecto  siga  visible,  a  pesar  de  los  errores  estandar  inflados  y/o  debido  a 
que  el  valor  verdadero  es  en  si  mismo  tan  grande  que,  aunque  se  obtenga  una  estimacion  subesti- 
mada,  continue  siendo  significativa.43 


10.10  Ejemplo  ampliado:  los  datos  Longley 

Concluimos  este  capitulo  con  el  analisis  de  los  datos  recopilados  por  Longley.44  Aunque  se  obtu- 
vieron  originalmente  para  evaluar  la  exactitud  del  calculo  computacional  de  las  estimaciones  de 
minimos  cuadrados  de  varios  paquetes  de  software,  los  datos  Longley  se  convirtieron  en  ejemplo 
para  ilustrar  diversos  problemas  econometrics,  como  la  multicolinealidad.  Los  datos  se  repro- 
ducen  en  la  tabla  10.8,  y  son  series  de  tiempo  de  1947  a  1962,  donde  Y  —  numero  de  personas 
con  trabajo  (en  miles),  X\  —  indice  implicito  de  deflacion  de  precios  para  el  P1B,  X2  =  P1B  (en 
millones  de  dolares),  X3  =  numero  de  desempleados  (en  miles),  X4  =  numero  de  personas  enlis- 
tadas  en  las  fuerzas  armadas,  X5  =  poblacion  no  institucionalizada  mayor  de  14  anos  de  edad  y 
X6  =  ano  (igual  a  1  para  1947,  2  para  1948  y  16  para  1962). 


40  Vease  R.C.  Geary,  "Some  Results  about  Relations  Between  Stochastic  Variables:  A  Discussion  Document", 
Review  of  International  Statistical  Institute,  vol.  31,  1963,  pp.  163-181. 

41  Judge  et  a!.,  op.  cit.,  p.  61 9.  Tambien  encontrara  en  esta  pagina  la  prueba  de  que,  a  pesar  de  la  colineali- 
dad,  se  obtienen  mejores  predicciones  medias  si  la  estructura  de  colinealidad  existente  tambien  persiste  en 
las  muestras  futuras. 

42  Para  un  excelente  analisis  vease  E.  Malinvaud,  Statistical  Methods  of  Econometrics,  2a.  ed.,  North-Holland 
Publishing  Company,  Amsterdam,  1970,  pp.  220-221. 

43  J.  Johnston,  Econometric  Methods,  3a.  ed.,  McGraw-Hill,  Nueva  York,  1984,  p.  249. 

44  J.  Longley,  "An  Appraisal  of  Least-Squares  Programs  from  the  Point  of  User",  journal  of  the  American  Statis¬ 
tical  Association,  vol.  62,  1 967,  pp.  81 9-841 . 
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TAB  LA  10.8 

Datos  Longley 

Fuente:  J.  Longley,  “An  Appraisal 
of  Least-Squares  Programs  from 
the  Point  of  the  User”,  Journal  of 
the  American  Statistical  Associa¬ 
tion,  vol.  62,  1967,  pp.  819-841. 


Observation 

Y 

Xi 

*2 

*3 

X4 

*5 

Tiempo 

1947 

60  323 

830 

234  289 

2  356 

1  590 

107  608 

1 

1948 

61  122 

885 

259  426 

2  325 

1  456 

108  632 

2 

1949 

60  171 

882 

258  054 

3  682 

1  616 

109  773 

3 

1950 

61  187 

895 

284  599 

3  351 

1  650 

110  929 

4 

1951 

63  221 

962 

328  975 

2  099 

3  099 

112  075 

5 

1952 

63  639 

981 

346  999 

1  932 

3  594 

113  270 

6 

1953 

64  989 

990 

365  385 

1  870 

3  547 

115  094 

7 

1954 

63  761 

1  000 

363  1  12 

3  578 

3  350 

116  219 

8 

1955 

66  019 

1  012 

397  469 

2  904 

3  048 

117  388 

9 

1956 

67  857 

1  046 

419  180 

2  822 

2  857 

118  734 

10 

1957 

68  169 

1  084 

442  769 

2  936 

2  798 

1 20  445 

11 

1958 

66  513 

1  108 

444  546 

4  681 

2  637 

121  950 

12 

1959 

68  655 

1  126 

482  704 

3  813 

2  552 

123  366 

13 

1960 

69  564 

1  142 

502  601 

3  931 

2  514 

125  368 

14 

1961 

69  331 

1  157 

518  173 

4  806 

2  572 

127  852 

15 

1962 

70  551 

1  169 

554  894 

4  007 

2  827 

130  081 

16 

Suponga  que  nuestro  objetivo  es  predecir  Y  con  base  en  las  seis  variables  X.  Mediante  el  soft¬ 
ware  EViews6  obtenemos  los  siguientes  resultados  de  la  regresion: 


Variable  dependiente:  Y 
Muestra:  1947-1962 


Variable 

Coef iciente 

Error  estandar 

Estadistico  t  Probabilidad 

C 

-3482259 . 

890420.4 

-3 . 910803 

0 . 0036 

15 . 06187 

84 . 91493 

0 . 177376 

0 . 8631 

x2 

-0 . 035819 

0 . 033491 

-1 . 069516 

0 .3127 

x3 

-2 . 020230 

0.488400 

-4 . 136427 

0 . 0025 

x4 

-1 . 033227 

0.214274 

-4 . 821985 

0 . 0009 

x5 

-0 . 051104 

0.226073 

-0.226051 

0 . 8262 

x6 

1829 . 151 

455.4785 

4 . 015890 

0 . 0030 

R  cuadrada 

0.995479  Media  de  la 

variable  dependiente 

65317 . 00 

R  cuadrada 

ajustada 

0.992465  Desviacion 

estandar  de  la 

Error  estandar 

de  la  regresion 

304.8541  variable  dependiente 

3511 . 968 

Suma  de  cuadrados  residual 

836424.1  Criterio  de 

informacion  de  Akaike 

14 .57718 

Log  verosimilitud 

-109.6174  Criterio  de 

Schwarz 

14 . 91519 

Estadistico 

de 

Durbin -Wat son 

2.559488  Estadistico 

F 

330.2853 

Probabilidad  (estadistico  F ) 

0 . 000000 

A  primera  vista,  dichos  resultados  sugieren  que  se  tiene  un  problema  de  colinealidad,  pues  el 
valor  R2  es  muy  alto;  sin  embargo,  unas  cuantas  variables  son  estadisticamente  no  significativas 
(X\,  Xi_  y  X5),  lo  cual  constituye  un  sintoma  caracteristico  de  multicolinealidad.  Para  arrojar  mas 
luz  a  este  problema,  en  la  tabla  10.9  se  presentan  las  intercorrelaciones  entre  las  seis  regresoras. 

Esta  tabla  suministra  lo  que  se  llama  matriz  de  correlacion.  En  la  tabla,  las  entradas  de  la 
diagonal  principal  (las  que  van  desde  la  esquina  superior  izquierda  hacia  la  esquina  inferior  de- 
recha)  suministran  la  correlacion  de  una  variable  consigo  misma,  la  cual  por  definicion  siempre 
es  1;  ademas,  las  entradas  fuera  de  la  diagonal  principal  son  las  parejas  de  correlaciones  entre  las 
variables  X.  El  primer  renglon  de  esta  tabla  proporciona  la  correlacion  de  X\  con  las  otras  varia- 
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TABLA  10.9 

Intercorrelaciones 

Xi 

x2 

x3 

x4 

x5 

x6 

Xi 

1 .000000 

0.991589 

0.620633 

0.464744 

0.979163 

0.991149 

X2 

0.991589 

1 .000000 

0.604261 

0.446437 

0.991090 

0.995273 

x3 

0.620633 

0.604261 

1 .000000 

-0.177421 

0.686552 

0.668257 

X4 

0.464744 

0.446437 

-0.177421 

1 .000000 

0.364416 

0.41  7245 

X5 

0.979163 

0.991090 

0.686552 

0.364416 

1.000000 

0.993953 

x6 

0.991149 

0.995273 

0.668257 

0.41  7245 

0.993953 

1 .000000 

hies  X.  Por  ejemplo,  0.991589  es  la  correlacion  entre  X\  y  Ah;  0.620633  es  la  correlacion  entre  X\ 
y  X-x,,  y  as!  sucesivamente. 

Como  se  ve,  varias  de  estas  correlaciones  a  pares  son  muy  altas,  lo  cual  sugiere  que  quiza 
haya  un  grave  problema  de  colinealidad.  Por  supuesto,  debe  recordarse  la  advertencia  anterior  de 
que  tales  correlaciones  a  pares  tal  vez  sean  una  condicion  suficiente,  pero  no  necesaria,  para  la 
multicolinealidad. 

Con  objeto  de  aclarar  mas  la  naturaleza  del  problema  de  la  multicolinealidad,  observe  las  re- 
gresiones  auxiliares;  es  decir,  la  regresion  de  cada  variable  X  sobre  las  restantes  variables  X.  Para 
ahorrar  espacio,  se  presentaran  solo  los  valores  R2  obtenidos  con  base  en  esas  regresiones,  las 
cuales  se  listan  en  la  tabla  10.10.  Como  los  valores  R 2  de  las  regresiones  auxiliares  son  muy  altos 
(con  la  posible  excepcion  de  la  regresion  de  X4)  sobre  las  restantes  variables  X,  al  parecer  existe 
un  grave  problema  de  colinealidad.  La  misma  informacion  se  obtiene  a  partir  de  los  factores 
de  tolerancia.  Como  ya  mencionamos,  mientras  mas  cercano  a  cero  este  el  factor  de  tolerancia, 
mayor  sera  la  evidencia  de  colinealidad. 

Al  aplicar  la  regia  practica  de  Klein  observamos  que  los  valores  R2  obtenidos  de  las  regresio¬ 
nes  auxiliares  exceden  el  valor  general  R2  (es  decir,  el  que  se  obtuvo  de  la  regresion  de  Y  sobre 
todas  las  variables  X),  que  es  igual  a  0.9954,  en  3  de  6  regresiones  auxiliares,  lo  cual  de  nuevo 
sugiere  que  sin  duda  los  datos  Longley  estan  plagados  del  problema  de  multicolinealidad.  A 
proposito,  si  aplica  la  prueba  F  dada  en  (10.7.3),  el  lector  debe  verificar  que  todos  los  valores  R2 
dados  en  las  tablas  anteriores  son  estadistica  y  significativamente  diferentes  de  cero. 

Ya  observamos  que  los  estimadores  de  MCO  y  sus  errores  estandar  son  sensibles  a  los  peque- 
nos  cambios  en  los  datos.  En  el  ejercicio  10.32  se  pide  al  lector  que  vuelva  a  efectuar  la  regresion 
de  Y  sobre  cada  una  de  las  seis  variables  X,  pero  que  elimine  las  ultimas  observaciones;  es  decir, 
que  haga  la  regresion  para  el  periodo  1947-1961.  Vera  como  cambian  los  resultados  de  la  regre¬ 
sion  al  eliminar  las  observaciones  de  un  solo  ano. 

Ahora  que  establecimos  que  existe  un  problema  de  multicolinealidad,  <^que  acciones  correc- 
tivas  pueden  llevarse  a  cabo?  Reconsidere  el  modelo  original.  En  primer  lugar,  el  PIB  puede 
expresarse  no  en  terminos  nominales,  sino  en  terminos  reales,  lo  cual  se  realiza  al  dividir  el  PIB 
nominal  entre  el  indice  de  deflacion  del  precio  implicito.  En  segundo  lugar,  en  vista  de  que  la 
poblacion  no  institucional  mayor  de  14  anos  aumenta  con  el  tiempo  debido  al  crecimiento  natural 
de  la  poblacion,  estara  muy  correlacionada  con  el  tiempo,  la  variable  X()  del  modelo.  Por  tanto, 
en  lugar  de  conservar  esas  dos  variables,  mantenemos  la  variable  X5  y  desechamos  X, En  tercer 


TABLA  10.10 

Valores  R2  obtenidos  de 

Variable  dependiente 

Valor  de  R2 

Tolerancia  (TOL) 

regresiones  auxiliares 

Xi 

0.9926 

0.0074 

x2 

0.9994 

0.0006 

X3 

0.9702 

0.0298 

X4 

0.7213 

0.2787 

X5 

0.9970 

0.0030 

X6 

0.9986 

0.0014 
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lugar,  no  hay  ninguna  razon  de  peso  para  incluir  X3,  el  numero  de  personas  desempleadas;  quiza 
la  tasa  de  desempleo  fuese  una  mejor  medida  de  las  condiciones  del  mercado  de  trabajo;  sin 
embargo,  no  hay  ningiin  dato  al  respecto.  Por  consiguiente,  eliminamos  la  variable  X3.  Con  estos 
cambios  obtenemos  los  siguientes  resultados  de  la  regresion  (P1BR  =  P1B  real):45 


Variable  dependiente:  Y 
Muestra:  1947-1962 


Variable  Coeficiente  Error  estandar  Estadlstico  t  Probabilidad 


c 

65720.37 

10624 . 81 

6 . 185558 

0 . 0000 

PIBR 

9 . 736496 

1 .791552 

5.434671 

0 . 0002 

*4 

-0.687966 

0.322238 

-2 . 134965 

0 . 0541 

*5 

-0.299537 

0 . 141761 

-2 . 112965 

0 . 0562 

R  cuadrada 

0 .981404 

Media  de  la  variable  dependiente 

65317 . 00 

R  cuadrada  ajustada 

0 . 976755 

Desviacion  estandar  de  la 

Error  estandar  de 

la  regresion 

534.4492 

variable  dependiente 

3511 . 968 

Suma  de  cuadrados 

residual 

3440470 . 

Criterio  de  informacion  de  Akaike 

15 .61641 

Log  verosimilitud 

-120 . 9313 

Criterio  de  Schwarz 

15 .80955 

Estadlstico  de  Durbin-Watson 

1 . 654069 

Estadlstico  F 

211 . 0972 

Probabilidad  (estadlstico  F ) 

0 . 000000 

Aunque  R 2  disminuyo  un  poco  en  comparacion  con  la  R2  original,  aun  es  muy  alta.  Ahora  todos 
los  coeficientes  estimados  son  significativos  y  sus  signos  tienen  sentido  desde  el  punto  de  vista 
economico. 

Dejamos  al  lector  encontrar  otros  modelos  y  observar  la  forma  en  que  cambian  los  resultados. 
Tambien  tenga  en  cuenta  la  advertencia  anterior  respecto  de  la  utilizacion  del  metodo  de  la  razon 
para  transformar  los  datos  con  el  objeto  de  resolver  el  problema  de  la  colinealidad.  Volveremos 
a  esta  cuestion  en  el  capitulo  1 1 . 


Resumen  y 
conclusiones 


1.  Un  supuesto  del  modelo  clasico  de  regresion  lineal  es  que  no  haya  multicolinealidad  entre  las 
variables  explicativas,  las  A.  Interpretada  en  terminos  generales,  la  multicolinealidad  se  refiere 
a  una  situacion  en  la  cual  existe  una  relacion  lineal  exacta  o  aproximadamente  exacta  entre  las 
variables  X. 

2.  Las  consecuencias  de  la  multicolinealidad  son  las  siguientes:  si  existe  colinealidad  perfecta 
entre  las  X,  sus  coeficientes  de  regresion  son  indeterminados  y  sus  errores  estandar  no  estan 
definidos.  Si  la  colinealidad  es  alta  pero  no  perfecta,  es  posible  la  estimacion  de  los  coeficien¬ 
tes  de  regresion,  pero  sus  errores  estandar  tienden  a  ser  grandes.  Como  resultado,  los  valores 
poblacionales  de  los  coeficientes  no  pueden  estimarse  en  forma  precisa;  sin  embargo,  si  el 
objetivo  es  estimar  combinaciones  lineales  de  estos  coeficientes,  las  funciones  estimables,  esto 
se  logra  aun  en  presencia  de  multicolinealidad  perfecta. 

3.  Aunque  no  hay  metodos  seguros  para  detectar  la  colinealidad,  existen  diversos  indicadores, 
como  los  siguientes: 

a)  El  signo  mas  claro  de  multicolinealidad  es  cuando  R2  es  muy  alta  pero  ninguno  de  los 
coeficientes  de  regresion  es  estadisticamente  significativo  con  base  en  la  prueba  t  conven- 
cional.  Este  caso  es,  por  supuesto,  extremo. 


45  El  coeficiente  de  correlacion  entre  X5  y  X6  es  de  casi  0.9939,  una  correlacion  muy  alta  en  verdad. 
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EJERCICIOS 


b)  En  los  modelos  con  apenas  dos  variables  explicativas,  puede  tenerse  una  idea  relativamente 
buena  de  la  colinealidad  mediante  el  examen  del  coeficiente  de  correlacion  de  orden  cero, 
o  simple,  entre  las  dos  variables.  Si  esta  correlacion  es  alta,  la  multicolinealidad  suele  ser 
la  culpable. 

c)  Sin  embargo,  los  coeficientes  de  correlacion  de  orden  cero  pueden  ser  malos  indicadores 
en  modelos  con  mas  de  dos  variables  X,  pues  es  posible  tener  correlaciones  bajas  de  orden 
cero  y  encontrar  aun  alta  multicolinealidad.  En  estas  situaciones  puede  ser  necesario  exa- 
minar  los  coeficientes  de  correlacion  parcial. 

d )  Si  R2  es  alta  pero  las  correlaciones  parciales  son  bajas,  la  multicolinealidad  es  una  posi- 
bilidad.  Aqui  hay  una  o  mas  variables  que  pueden  ser  superfluas.  Pero  si  R2  es  alta  y  las 
correlaciones  parciales  tambien  son  altas,  la  multicolinealidad  puede  no  ser  facilmente 
detectable.  Tambien,  como  senalan  C.  Robert  Wichers,  Krishna  Kumar,  John  O’Hagan  y 
Brendan  McCabe,  hay  algunos  problemas  estadisticos  con  la  prueba  de  correlacion  parcial 
sugerida  por  Farrar  y  Glauber. 

e)  Por  consiguiente,  se  puede  hacer  la  regresion  de  cada  variable  X,  sobre  las  variables  X 
restantes  en  el  modelo  y  encontrar  los  coeficientes  de  determinacion  correspondientes 
R  j.  Una  R 2  elevada  sugeriria  que  Xt  esta  muy  correlacionado  con  el  resto  de  las  X.  Asi, 
se  puede  eliminar  esa  A,  del  modelo  siempre  y  cuando  no  conduzca  a  un  sesgo  de  especi- 
ficacion  grave. 

4.  La  deteccion  de  multicolinealidad  es  la  mitad  de  la  batalla.  La  otra  mitad  es  hallar  la  forma  de 
deshacerse  del  problema.  Nuevamente,  no  existen  metodos  seguros,  solo  unas  cuantas  reglas 
practicas,  algunas  de  las  cuales  son  las  siguientes:  1)  utilizar  informacion  obtenida  a  priori 
o  externa  al  modelo,  2)  combinar  informacion  de  corte  transversal  y  de  series  de  tiempo, 
3)  omitir  una  variable  si  es  muy  colineal,  4)  transformar  los  datos  y  5)  obtener  datos  adiciona- 
les  o  nuevos.  Naturalmente,  saber  que  regia  funciona  en  la  practica  depende  de  la  naturaleza 
de  la  informacion  y  de  la  gravedad  del  problema  de  colinealidad. 

5.  Mencionamos  el  papel  de  la  multicolinealidad  en  la  prediccion  y  senalamos  que,  a  menos  que 
la  estructura  colineal  continue  en  muestras  futuras,  es  peligroso  utilizar  para  fines  de  proyec- 
cion  una  regresion  estimada  que  haya  sido  contaminada  por  la  multicolinealidad. 

6.  Aunque  la  multicolinealidad  ha  recibido  extensa  (algunos  dirian  excesiva)  atencion  en  la 
teoria,  un  problema  igualmente  importante  en  la  investigacion  empirica  es  el  de  la  micro- 
numerosidad,  o  pequenez  del  tamano  de  la  muestra.  De  acuerdo  con  Goldberger:  “Cuando 
un  articulo  de  investigacion  acusa  la  presencia  de  multicolinealidad,  los  lectores  deben  ver 
si  esa  queja  seria  convincente  si  se  sustituyera  el  concepto  de  ‘micronumerosidad’  por  el  de 
‘multicolinealidad’  ”.46  El  sugiere  que  el  lector  es  quien  debe  decidir  cuan  pequena  puede  ser 
n,  el  niimcro  de  observaciones,  antes  de  concluir  que  se  tiene  un  problema  de  muestra  pe¬ 
quena,  de  la  misma  forma  que  decide  cuan  alto  es  un  valor  de  R2  en  una  regresion  auxiliar 
antes  de  declarar  que  el  problema  de  colinealidad  es  muy  grave. 


Preguntas 

10.1.  En  el  modelo  de  regresion  lineal  de  £  variables,  hay  k  ecuaciones  normales  para  estimar 
las  k  incognitas.  Estas  ecuaciones  normales  estan  dadas  en  el  apendice  C.  Suponga  que 
Xk  es  una  combinacion  lineal  perfecta  de  las  variables  X restantes.  <(C6mo  se  demostraria 
que  en  este  caso  es  imposible  estimar  los  k  coeficientes  de  regresion? 


46  Goldberger,  op.  cit.,  p.  250. 
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TABLA  10.11 


Y 

*2 

*3 

-10 

1 

1 

-8 

2 

3 

-6 

3 

5 

-4 

4 

7 

-2 

5 

9 

0 

6 

11 

2 

7 

13 

4 

8 

15 

6 

9 

17 

8 

10 

19 

10 

11 

21 

10.2.  Considere  el  conjunto  de  datos  hipoteticos  de  la  tabla  10.11.  Suponga  que  desea  ajustar 
el  modelo 

Yi  —  +  P2X21  +  i  +  iij 

a  los  datos. 

a )  ^Puede  estimar  las  tres  incognitas?  ^Por  que? 

b )  Si  no  se  puede  hacer,  ^que  funciones  lineales  de  estos  parametros,  las  funciones  esti- 
mables,  puede  estimar?  Muestre  los  calculos  necesarios. 

10.3.  Consulte  el  ejemplo  de  la  mortalidad  infantil  analizado  en  el  capitulo  8  (ejemplo  8.1). 
Dicho  ejemplo  implied  hacer  la  regresion  de  la  tasa  de  mortalidad  infantil  (MI)  sobre  el 
P1B per  capita  (PIBPC)  y  la  tasa  de  alfabetizacion  de  las  mujeres  (TAM).  Ahora,  suponga 
que  anadimos  la  variable  tasa  de  fecundidad  total  (TFT).  Lo  anterior  da  los  siguientes 
resultados  de  la  regresion: 

Variable  dependiente :  MI 


Variable 

Coef iciente 

Error  estandar 

Estadlstico  t 

Probabilidad 

C 

168.3067 

32 .89165 

5 . 117003 

0 . 0000 

PIBPC 

-0 . 005511 

0 .001878 

-2 . 934275 

0 . 0477 

TAM 

-1 . 768029 

0.248017 

-7 . 128663 

0 . 0000 

TFT 

12 . 86864 

4 .190533 

3 . 070883 

0 . 0032 

R  cuadrada 

0 . 747372 

Media  de  la  variable  dependiente 

141.5000 

R  cuadrada  ajustada 

0 . 734740 

Desviacion  estandar  de  la 

Error  estandar  de 

la  regresion 

39 . 13127 

variable  dependiente 

75 . 97807 

Suma  de  cuadrados 

residual 

91875.38 

Criterio  de  informacion  de  Akaike 

10.23218 

Log  verosimilitud 

-323.4298 

Criterio  de  Schwarz 

10.36711 

Estadlstico  de  Durbin-Watson 

2 . 170318 

Estadlstico  F 

59.16767 

Probabilidad  (estadlstico  F ) 

0 . 000000 

a)  Compare  estos  resultados  de  la  regresion  con  los  obtenidos  en  la  ecuacion  (8.1.4). 
iQuc  cambios  observa?  ^Como  los  explica? 

b )  /.Vale  la  pena  anadir  la  variable  TFT  al  modelo?  ^Por  que? 

c)  Como  todos  los  coeficientes  t  individuales  son  estadisticamente  significativos,  (,podc- 
mos  decir  que  no  existe  un  problema  de  colinealidad  en  el  presente  caso? 

10.4.  Si  la  relacion  X\X\ ,  +  X2X2 ,■  +  A3X3,  =  0  se  mantiene  para  todos  los  valores  de  X\,  X2  y 
^3,  estime  ri2.3,  ri3.2  y  r23.i- Encuentre  tambienT?)  23,  2?f.i3  y  ^3.12-  <!,Cual  es  el  grado  de 
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multicolinealidad  en  esta  situation?  Nota:  R\  23  es  el  coeficiente  de  determination  en  la 
regresion  de  Y  sob  re  Xi  y  X3.  Otros  valores  R2  deben  interpretarse  en  forma  similar. 

10.5.  Considere  el  siguiente  modelo: 

Yt  =  1  +  filXt  +  P^Xf—l  +  P^Xt-2  +  P^Xt-2  +  P^Xt-A  +  ut 

donde  Y  —  consumo,  X  =  ingreso  y  t  —  tiempo.  El  modelo  anterior  postula  que  el  gasto 
de  consumo  en  el  tiempo  t  es  funcion  no  solo  del  ingreso  en  el  tiempo  t,  sino  tambien  del 
ingreso  en  periodos  anteriores.  Por  tanto,  el  gasto  de  consumo  en  el  primer  trimestre 
de  2000  es  funcion  del  ingreso  en  ese  trimestre  y  en  los  cuatro  trimestres  de  1999.  Tales 
modelos  se  denominan  modelos  de  rezago  distribuido  y  los  veremos  en  un  capitulo 
posterior. 

a)  pEsperaria  multicolinealidad  en  tales  modelos  y  por  que? 

b)  Si  espera  colinealidad,  (',c6mo  resolveria  el  problema? 

10.6.  Considere  el  ejemplo  ilustrativo  de  la  section  10.6  (ejemplo  10.1).  <^C6mo  interpretaria 
la  diferencia  en  la  propension  marginal  a  consumir  obtenida  de  (10.6.1)  y  (10.6.4)? 

10.7.  En  los  datos  que  comprenden  series  de  tiempo  economicas,  como  PNB,  oferta  monetaria, 
precios,  ingreso,  desempleo,  etc.,  suele  sospecharse  la  presencia  de  multicolinealidad. 
pPor  que? 

10.8.  Suponga  en  el  modelo 

Y,  —  ft  +  P2X 2i  +  PiX-st  +  lit 

que  r2  3,  el  coeficiente  de  correlacion  cntrc  X2  y  X},  es  cero.  Por  consiguiente,  le  sugie- 
ren  que  efectue  las  siguientes  regresiones: 

Yj  —  a.  1  +  0-2X21  +  u\t 

Yj  —  Y\  +  Y^Xy  +  U2i 

a)  pSera  a2  =  P2  y  p3  =  ft?  pPor  que? 

b)  ^Sera  ft  igual  a\  o  Y\,  o  a  alguna  combinacion  de  estos? 

c)  ^Seravar(ft)  =  var(a2)  y  var(ft)  =  var(y3)? 

10.9.  Consulte  el  ejemplo  ilustrativo  del  capitulo  7,  en  el  cual  ajustamos  la  funcion  de  produc- 
cion  Cobb-Douglas  al  sector  manufacturero  de  los  50  estados  y  el  Distrito  de  Columbia 
de  Estados  Unidos  para  2005.  Los  resultados  de  la  regresion  dados  en  (7.9.4)  muestran 
que  los  coeficientes  del  trabajo  y  del  capital  son  estadisticamente  significativos  en  lo  in¬ 
dividual. 

a)  Examine  si  las  variables  trabajo  y  capital  estan  muy  correlacionadas. 

b)  Si  la  respuesta  a  a)  es  afirmativa,  ^cli miliaria,  por  ejemplo,  la  variable  trabajo  del 
modelo  y  efectuaria  la  regresion  de  la  variable  produccion  sobre  el  insumo  capital 
solamente? 

c)  Si  hace  lo  anterior,  (',en  que  clase  de  sesgo  de  especificacion  se  incurre?  Descubra  la 
naturaleza  de  este  sesgo. 

10.10.  Consulte  el  ejemplo  7.4.  Para  este  problema,  la  matriz  de  correlacion  es  la  siguiente: 


Xi 

X ? 

x- 

X,  1 

0.9742 

0.9284 

X? 

1.0 

0.9872 

X ? 

1.0 

354 


Parte  Dos  Flexibilizacion  de  los  supuestos  del  modelo  clasico 


a)  “Como  las  correlaciones  de  orden  cero  son  muy  elevadas  debe  existir  multicolineali- 
dad  grave.”  Comente. 

b)  /Eliminan'a  del  modelo  las  variables  Xj  y  Xp 

c)  Si  elimina  las  variables  anteriores,  /que  sucedera  con  el  valor  del  coeficiente  de  Xf! 

10.11.  Regresion  por  pasos.  A1  decidir  sobre  el  “mejor”  conjunto  de  variables  explicativas  para 
un  modelo  de  regresion,  los  investigadores  a  menudo  siguen  el  metodo  de  regresion  por 
pasos.  En  este  metodo  se  introducen,  una  por  una,  las  variables  X  (regresion  por  pasos 
hacia  delante)  o  se  incluyen  todas  las  variables  X  posibles  en  una  regresion  multiple  y 
se  rechazan  una  a  la  vez  (regresion  por  pasos  hacia  atras).  La  decision  de  aumentar  o 
eliminar  una  variable  suele  tomarse  con  base  en  la  contribution  de  esa  variable  a  la  SCE, 
a  juicio  de  la  prueba  F.  Con  todo  lo  que  sabe  sobre  multicolinealidad  /recomendaria 
alguno  de  estos  procedimientos?  /Por  que?* 

10.12.  Establezca  si  las  siguientes  afirmaciones  son  verdaderas,  falsas  o  inciertas,  y  justifique  la 
respuesta. 

a)  A  pesar  de  la  multicolinealidad  perfecta,  los  estimadores  de  MCO  son  MELI. 

b )  En  los  casos  de  alta  multicolinealidad  no  es  posible  evaluar  la  significancia  individual 
de  uno  o  mas  coeficientes  de  regresion  parcial. 

c)  Si  una  regresion  auxiliar  muestra  que  una  Rj  particular  es  alta,  hay  evidencia  clara  de 
alta  colinealidad. 

d)  Las  correlaciones  altas  entre  parejas  de  regresoras  no  sugieren  una  alta  multicolinea¬ 
lidad. 

e)  La  multicolinealidad  es  inofensiva  si  el  objetivo  del  analisis  es  solo  la  prediction. 

/)  Entre  mayor  sea  el  FIV,  ceteris  paribus,  mas  grandes  seran  las  varianzas  de  los  esti¬ 
madores  de  MCO. 

g)  La  tolerancia  (TOL)  es  una  medida  de  multicolinealidad  mejor  que  el  FIV 
/?)  No  podra  obtener  un  valor  R1  elevado  en  una  regresion  multiple  si  todos  los  coeficien¬ 
tes  parciales  de  pendiente  no  son  estadisticamente  significativos,  en  lo  individual,  con 
base  en  la  prueba  t  usual. 

i)  En  la  regresion  de  Y  sobre  X2  y  X 3,  suponga  que  hay  poca  variabilidad  en  los  valo- 
res  de  X3.  Esto  aumentaria  vari/fi).  En  el  extremo,  si  todas  las  X3  fueran  identicas, 
var(j03)  seria  infinita. 

10.13.  a)  Demuestre  que  si  ry  —  0  para  i  —  2,3,...,  k entonces 

R\.23...k  —  0 

b)  /Que  importancia  tiene  este  hallazgo  para  la  regresion  de  la  variable  X,  (=  Y)  sobre 

x2,x3,...,xk? 


10.14.  Suponga  que  todos  los  coeficientes  de  correlacion  de  orden  cero  de  X\  (—  Y),X 2,  . . .  ,Xk 
son  iguales  a  r. 

a)  /Cual  es  el  valor  de  Rj  23  k? 

b)  ('.Cuales  son  los  valores  de  los  coeficientes  de  correlacion  de  primer  orden? 

**10. 15.  En  notacion  matricial  se  demuestra  (apendice  C)  que 

P  =  (X'X)_1X'y 

a)  (,Que  sucede  con  ji  cuando  hay  colinealidad  perfecta  entre  las  X7 

b )  /.Como  sabe  si  existe  colinealidad  perfecta? 


'Compruebe  si  su  razonamiento  esta  de  acuerdo  con  el  de  Arthur  S.  Goldbergery  D.B.  Jochems,  "Note  on 
Stepwise  Least-Squares",  Journal  of  the  American  Statistical  Association,  vol.  56,  marzo  de  1961,  pp.  1 05-1 1 0. 
**  Opcional. 
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10.16.  Con  notacion  matricial  se  demuestra  que 

var-cov  (p)  =  er2(X'X)_1 

(',Que  le  sucede  a  esta  matriz  var-cov 

a )  cuando  hay  multicolinealidad  perfecta? 

b)  cuando  la  colinealidad  es  alta  pero  no  perfecta? 

10. 17.  Considere  la  siguiente  matriz  de  correlacion: 


X2 

Xi 

■■■  xk 

X2 

‘  1 

f23 

■■■  r2k 

R=  X3 

r^2 

1 

■■■  r3k 

xk 

-rk2 

rk3 

...  1 

Describa  como  calcularia,  con  base  en  la  matriz  de  correlacion,  si  a)  hay  colinealidad 
perfecta,  b)  hay  colinealidad  menos  que  perfecta  y  c)  las  X  no  estan  correlacionadas. 

Sugerencia:  Puede  utilizar  |R|  para  responder  estas  preguntas,  donde  |R|  denota  el 
determinante  de  R. 

10. 18.  Variables  explicativas  ortogonales.  Suponga  que  en  el  siguiente  modelo 

Yi  —  P  i  +  P2X21  +  P3X2  i  +  •  ■  ■  +  pkXH  +  Uj 

X2  a  Xk  no  estan  correlacionadas.  Tales  variables  se  denominan  variables  ortogonales.  Si 
este  es  el  caso: 

a)  (.Cual  sera  la  estructura  de  la  matriz  (X'X)? 

b)  (',C6mo  obtiene  p  =  (X'X)  '  1  X'v? 

c)  (.Cual  sera  la  naturaleza  de  la  matriz  var-cov  de  P? 

d)  Suponga  que  efectuo  la  regresion  y  luego  desea  introducir  otra  variable  ortogonal, 
por  ejemplo,  Xk+\,  en  el  modelo.  ,',Dcbc  recalcular  todos  los  coeficientes  anteriores 
P\  a  At?  6por  que? 

10. 19.  Considere  el  siguiente  modelo: 

PNB,  =  P\  +  /I2M  t  +  +  /S4(M,  —  M,_i)  +  ut 

donde  PNB,  =  PNB  en  el  periodo  t,  M,  =  oferta  monetaria  en  el  periodo  t,  M,  |  =  oferta 
monetaria  en  el  periodo  (t  —  1)  y  (M,  —  M,_i)  =  cambio  en  la  oferta  monetaria  entre 
el  tiempo  t  y  el  tiempo  (t  —  1).  Este  modelo  postula  entonces  que  el  nivel  del  PNB  en  el 
periodo  t  es  una  funcion  de  la  oferta  monetaria  en  el  tiempo  t  y  en  el  tiempo  (t  —  1),  lo 
mismo  que  del  cambio  en  la  oferta  monetaria  entre  estos  periodos. 

a)  Si  supone  que  tiene  la  informacion  para  estimar  el  modelo  anterior,  ,',podria  estimar 
todos  los  coeficientes  de  este  modelo?  (',Por  que? 

b )  De  no  ser  posible,  /,quc  coeficientes  pueden  estimarse? 

c)  Suponga  que  el  termino  AtM,_i  estuviera  ausente  del  modelo.  (',Su  respuesta  a  a)  seria 
la  misma? 

d)  Repita  c)  pero  ahora  suponga  que  el  termino  /TM,  esta  ausente  del  modelo. 


Opcional. 
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10.20.  Muestre  que  (7.4.7)  y  (7.4.8)  tambien  se  expresan  como 


*  -  E  ytxii  )C4)  -  (E  ytX3i)(J2X2ix3i) 

P2  /x~^  ?  \  ?  \  /i  T- \ 


(E4)(E4)(i-^) 


2  (E>^3i)(E4)-  (E)'/^/)  {T,x2iX3i) 

Pi  = - 


donde  V2i  es  el  coeficiente  de  correlation  cntrc  26  y  A3. 

10.21.  Con  (7.4.12)  y  (7.4.15)  muestre  que  cuando  hay  colinealidad  perfecta,  las  varianzas  de  /1 2 


y  Pi  son  infinitas. 


10.22.  Verifique  que  los  errores  estandar  de  las  sumas  de  los  coeficientes  de  pendiente,  esti- 
mados  a  partir  de  (10.5.6)  y  (10.5.7),  son  0.1549  y  0.1825,  respectivamente  (consulte  la 
section  10.5). 

10.23.  Para  el  modelo  de  regresion  con  k  variables  puede  mostrarse  que  la  varianza  del  A'-esimo 
coeficiente  de  regresion  parcial  {k=  2,  3, . . . ,  K)  dado  en  la  ecuacion  (7.5.6)  tambien  se 
expresa  como* 


donde  er2  =  varianza  de  Y,  oj  =  varianza  de  la  Ar-esima  variable  explicativa,  Rj  —  R2 
de  la  regresion  de  A7-  sobre  las  variables  X  restantes  y  R2  —  coeficiente  de  determina¬ 
tion  de  la  regresion  multiple,  es  decir,  la  regresion  de  Y  sobre  todas  las  variables  X. 


a)  ^Que  sucede  con  var  ( /!/. )  si  aumenta  a2,  y  todo  lo  demas  se  mantiene  constante? 
^Cuales  son  las  implicaciones  para  el  problema  de  multicolinealidad? 


b)  ^Que  sucede  con  la  formula  anterior  cuando  la  colinealidad  es  perfecta? 


c)  Responda  si  es  cierto  o  es  falso:  “La  varianza  de  jik  disminuye  a  medida  que  R2  au¬ 
menta,  de  manera  que  el  efecto  de  una  Rj  alta  puede  compensarse  por  una  R2  alta”. 


10.24.  Con  base  en  la  informacion  anual  para  el  sector  manufacturero  de  Estados  Unidos  de 
1899  a  1922,  Dougherty  obtuvo  los  siguientes  resultados  de  regresiond 


logy=  2.81  -  0.53  log  K  +  0.91  log  L  +  0.047t 
ee  =  (1.38)  (0.34)  (0.14)  (0.021) 

R2  =  0.97  F  =  189.8 


(1) 


donde  Y  =  Indice  de  produccion  real,  K  —  indice  de  insumo  capital  real,  L  —  Indice  de 
insumo  trabajo  real,  t  —  tiempo  o  tendencia. 

Con  la  misma  informacion,  obtuvo  tambien  la  siguiente  regresion: 


log (Y)L)=  -0.11  +  0.11  log  (AT/Z,)  +  0.006t 


(2) 


ee  =  (0.03)  (0.15) 


(0.006) 

R2  =  0.65  F  —  19.5 


*  Esta  formula  proviene  de  R.  Stone,  "The  Analysis  of  Market  Demand",  Journal  of  the  Royal  Statistical  Society, 
vol.  B7,  1945,  p.  297.  Recuerde  tambien  (7.5.6).  Para  un  analisis  mas  detallado,  vease  Peter  Kennedy, 

A  Guide  to  Econometrics,  2a.  ed.,  The  MIT  Press,  Cambridge,  Massachusetts,  1985,  p.  156. 
t  Christopher  Dougherty,  Introduction  to  Econometrics,  Oxford  University  Press,  Nueva  York,  1992, 
pp.  1 59-1 60. 
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a )  /Existe  multicolinealidad  en  la  regresion  (1)?  /Como  sabe? 

b )  En  la  regresion  (1),  /cual  es  el  signo  a  priori  de  log  K?  /Concuerdan  los  resultados 
con  esta  expectativa?  /Por  que? 

c)  /Como  justificarla  la  forma  funcional  de  la  regresion  (1)?  ( Sugerencia :  Funcion  de 
production  de  Cobb-Douglas.) 

d)  Interprete  la  regresion  (1).  /Cual  es  el  papel  de  la  variable  de  tendencia  en  esta  regre¬ 
sion? 

e )  /Cual  es  la  logica  de  la  estimacion  de  la  regresion  (2)? 

/)  Si  hubo  multicolinealidad  en  la  regresion  (1),  /se  vio  reducida  por  la  regresion  (2)? 
/Como  sabe? 

g)  Si  la  regresion  (2)  es  una  version  restringida  de  la  regresion  (1),  /que  restriccion  im- 
pone  el  autor?  ( Sugerencia :  Rendimientos  a  escala.)  /Como  sabe  si  esta  restriccion  es 
valida?  /Que  prueba  utiliza?  Muestre  todos  sus  calculos. 

h )  /.Son  comparables  los  valores  R2  de  las  dos  regresiones?  /Por  que?  /Como  pueden 
hacerse  comparables,  si  no  lo  son  en  la  forma  actual? 

10.25.  Evalue  de  manera  critica  los  siguientes  enunciados: 

a)  “De  hecho,  la  multicolinealidad  no  es  un  error  del  modelo.  Es  una  condition  de  la 
insuficiencia  de  datos.”* 

b)  “Si  no  es  factible  obtener  mas  datos,  debe  aceptarse  que  los  datos  con  que  se  cuenta 
tienen  una  cantidad  limitada  de  informacion,  y,  en  consecuencia,  se  debe  simplificar 
el  modelo.  Tratar  de  estimar  modelos  que  a  su  vez  son  muy  complicados  es  uno  de  los 
errores  mas  comunes  que  cometen  los  econometristas  aplicados  inexpertos.”** 

c)  “Para  los  investigadores  resulta  comun  afirmar  que  existe  multicolinealidad  siempre 
que  los  signos  que  se  supusieron  no  se  encuentran  en  los  resultados  de  la  regresion, 
cuando  las  variables  que  se  sabe  a  priori  que  son  importantes  tienen  valores  t  insig- 
nificantes,  o  cuando  diversos  resultados  de  regresion  experimentan  cambios  impor¬ 
tantes  siempre  que  se  omite  una  variable  explicativa.  Por  desgracia,  ninguna  de  tales 
condiciones  es  necesaria  o  suficiente  para  la  colinealidad;  y  ademas,  ninguna  propor- 
ciona  sugerencias  utiles,  como  el  tipo  de  informacion  adicional  que  se  requeriria  para 
resolver  el  problema  de  la  estimacion  que  afrontan ,”+ 

d)  “.  .  .  toda  regresion  de  serie  de  tiempo  con  mas  de  cuatro  variables  independientes 
resulta  ser  una  basuraX 

Ejercicios  empfricos 

10.26.  Klein  y  Goldberger  intentaron  ajustar  el  siguiente  modelo  de  regresion  a  la  economia  de 

Estados  Unidos: 


Yi  —  P\  +  PlXli  +  /I3X3  i  +  /I4X4;  +  II  j 

donde  Y  =  consumo,  X2  —  ingreso  salarial,  X3  =  ingreso  no  salarial,  no  procedente  del 
campo,  y  X4  =  ingreso  procedente  del  campo.  Pero,  como  se  espera  que  X,  X  y  X4  sean 
muy  colineales,  obtuvieron  las  siguientes  estimaciones  de  ji 3  y  /I4  del  analisis  de  corte 
transversal: 


*  Samprit  Chatterjee,  AN  S.  Hadi  y  Betram  Price,  Regression  Analysis  by  Example,  3a.  ed.,  John  Wiley  &  Sons, 
Nueva  York,  2000,  p.  226. 

**  Russel  Davidson  y  James  G.  MacKinnon,  Estimation  and  Inference  in  Econometrics,  Oxford  University  Press, 
Nueva  York,  1993,  p.  186. 

+  Peter  Kennedy,  A  Guide  to  Econometrics,  4a.  ed.,  MIT  Press,  Cambridge,  Massachusetts,  1998,  p.  187. 

*  Esta  cita  se  atribuye  al  fallecido  econometrista  Zvi  Griliches  y  se  tomo  de  Ernst  R.  Berndt,  The  Practice  of 
Econometrics:  Classic  and  Contemporary,  Addison  Wesley,  Reading,  Massachusetts,  1991,  p.  224. 
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TABLA  10.12 

Fuente:  L.  R.  Klein  y  A.  S.  Gold- 
berger,  An  Economic  Model  of  the 
United  States,  1929-1952,  North 
Holland  Publishing  Company, 
Amsterdam,  1964,  p.  131. 


Ano 

Y 

*2 

*3 

X4 

Ano 

Y 

*2 

*3 

X4 

1936 

62.8 

43.41 

17.10 

3.96 

1946 

95.7 

76.73 

28.26 

9.76 

1937 

65.0 

46.44 

18.65 

5.48 

1947 

98.3 

75.91 

27.91 

9.31 

1938 

63.9 

44.35 

17.09 

4.37 

1948 

100.3 

77.62 

32.30 

9.85 

1939 

67.5 

47.82 

19.28 

4.51 

1949 

103.2 

78.01 

31.39 

7.21 

1940 

71.3 

51.02 

23.24 

4.88 

1950 

108.9 

83.57 

35.61 

7.39 

1941 

76.6 

58.71 

28.11 

6.37 

1951 

108.5 

90.59 

37.58 

7.98 

1945* 

86.3 

87.69 

30.29 

8.96 

1952 

111.4 

95.47 

35.17 

7.42 

*  Falta  la  informacion  correspondiente  a  los  anos  de  guerra  1942-1944.  Los  datos  de  los  demas  anos  estan  en  miles  de  millones  de 
dolares  de  1939. 


P2  =  0.75/02  y  Pa  =  0.625/02-  Con  estas  estimaciones  reformularon  su  funcion  de  consumo 
de  la  siguiente  manera: 

Yi  =  Pi  +  P2{X2j  +  0.75X3 +  0.625X(/)  +  Uj  —  P\  +  P2Z,  +  Ui 
donde  Z,  =  X2/  +  0.75X3i  +  0.625X4i. 

a)  Ajuste  el  modelo  modificado  a  los  datos  de  la  tabla  10.12  y  obtenga  estimaciones  de 

P\  a  Pa- 

b)  /'.Como  interpretaria  la  variable  Z? 

10.27.  La  tabla  10.13  proporciona  cifras  sobre  importaciones,  PIB  e  Indice  de  precios  al  con- 
sumidor  (IPC)  de  Estados  Unidos  de  1975  a  2005.  Se  le  pide  considerar  el  siguiente 
modelo: 

In  Importaciones,  =  P\  +  p2  In  PIB,  +  p>2  In  IPC,  +  u, 

a)  Estime  los  parametros  de  este  modelo  con  la  informacion  de  la  tabla. 

b)  /'.Sospccha  multicolinealidad  en  los  datos? 

c)  Efectue  las  siguientes  regresiones: 

1)  In  Importaciones,  —  A\  +  A2  In  PIB, 

2)  In  Importaciones,  —  B\  +  B2  In  IPC, 

3)  In  PIB,  =  Ci  +  C2  In  IPC, 

Con  base  en  estas  regresiones,  £que  puede  decir  sobre  la  naturaleza  de  la  multico¬ 
linealidad  en  los  datos? 


TABLA  10.13 

Importaciones  de  Esta¬ 
dos  Unidos,  PIB  e  IPC, 
1975-2005  (para  todos 
los  consumidores  urba- 
nos;  1982-1984  =  100, 
excepto  como  se  indica) 

Fuente:  Department  of  Labor, 
Bureau  of  Labor  Statistics. 


Ano 

IPC 

PIB 

Importaciones 

Ano 

IPC 

PIB 

Importaciones 

1975 

53.8 

1  638.3 

98  185 

1991 

136.2 

5  995.9 

491  020 

1976 

56.9 

1  825.3 

124  228 

1992 

140.3 

6  337.7 

536  528 

1977 

60.6 

2  030.9 

151  907 

1993 

144.5 

6  657.4 

589  394 

1978 

65.2 

2  294.7 

1  76  002 

1994 

148.2 

7  072.2 

668  690 

1979 

72.6 

2  563.3 

212  007 

1995 

152.4 

7  397.7 

749  374 

1980 

82.4 

2  789.5 

249  750 

1996 

156.9 

7  816.9 

803  113 

1981 

90.9 

3  128.4 

265  067 

1997 

160.5 

8  304.3 

876  470 

1982 

96.5 

3  225.0 

247  642 

1998 

163.0 

8  747.0 

917 103 

1983 

99.6 

3  536.7 

268  901 

1999 

166.6 

9  268.4 

1  029  980 

1984 

103.9 

3  933.2 

332  418 

2000 

172.2 

9  817.0 

1  224  408 

1985 

107.6 

4  220.3 

338  088 

2001 

177.1 

10  128.0 

1  145  900 

1986 

109.6 

4  462.8 

368  425 

2002 

179.9 

10  469.6 

1  1 64  720 

1987 

113.6 

4  739.5 

409  765 

2003 

184.0 

10  960.8 

1  260  717 

1988 

118.3 

5  103.8 

447 189 

2004 

188.9 

11  712.5 

1  472  926 

1989 

124.0 

5  484.4 

477  665 

2005 

195.3 

12  455.8 

1  677  371 

1990 

130.7 

5  803.1 

498  438 
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d)  Suponga  que  existe  multicolinealidad  en  los  datos,  pero  que  fc  y  ^3  son  significativos 
individualmente  en  el  nivel  de  5%,  y  que  la  prueba  global  F  es  tambien  significativa. 
En  este  caso,  pdebe  preocupar  el  problema  de  colinealidad? 

10.28.  Consulte  el  ejercicio  7.19  sobre  la  funcion  de  demanda  de  polio  en  Estados  Unidos. 

a)  Con  el  modelo  log-lineal  o  doble  log,  estime  las  diversas  regresiones  auxiliares. 
pCuantas  hay? 

b)  A  partir  de  estas  regresiones  auxiliares,  (',c6ino  decide  cuales  regresoras  son  muy 
colineales?  (',Que  prueba  utiliza?  Muestre  sus  calculos  en  detalle. 

c)  Si  existe  colinealidad  significativa  en  los  datos,  (',cual(es)  variable(s)  eliminaria(n) 
para  reducir  la  gravedad  del  problema  de  colinealidad?  Si  lo  hace,  /,que  problemas 
econometricos  enfrenta? 

d)  ('  Ticne  alguna  sugerencia  diferente  a  la  de  eliminar  variables  para  atenuar  el  problema 
de  colinealidad?  Explique. 

10.29.  La  tabla  10.14  proporciona  informacion  sobre  los  automoviles  de  pasajeros  nuevos  ven- 

didos  en  Estados  Unidos  como  funcion  de  diversas  variables. 

a)  Desarrolle  un  modelo  lineal  o  log-lineal  apropiado  para  estimar  una  funcion  de  de¬ 
manda  de  automoviles  en  Estados  Unidos. 

b)  Si  decide  incluir  todas  las  regresoras  dadas  en  la  tabla  como  variables  explicativas, 
(',espcra  encontrar  el  problema  de  multicolinealidad?  ^Por  que? 

c)  Si  espera  lo  anterior,  ^como  resolveria  el  problema?  Plantee  los  supuestos  claramente 
y  muestre  todos  los  calculos  de  manera  explicita. 

10.30.  Para  evaluar  la  factibilidad  de  un  salario  anual  garantizado  (impuesto  sobre  la  renta  ne- 

gativo),  Rand  Corporation  valoro  en  un  estudio  la  respuesta  de  la  oferta  de  trabajo  (horas 


TABLA  10.14 

Datos  de  automoviles  de 
pasajeros 

Fuente:  Business  Statistics,  1986. 
Suplemento  de  Current  Survey  of 
Business ,  Department  of  Com¬ 
merce,  Estados  Unidos. 


Ano 

Y 

*2 

*3 

*4 

As 

*6 

1971 

10  227 

112.0 

121.3 

776.8 

4.89 

79  367 

1972 

10  872 

111.0 

125.3 

839.6 

4.55 

82  153 

1973 

11  350 

111.1 

133.1 

949.8 

7.38 

85  064 

1974 

8  775 

117.5 

147.7 

1  038.4 

8.61 

86  794 

1975 

8  539 

127.6 

161.2 

1  142.8 

6.16 

85  846 

1976 

9  994 

135.7 

170.5 

1  252.6 

5.22 

88  752 

1977 

11  046 

142.9 

181.5 

1  379.3 

5.50 

92  017 

1978 

11  164 

153.8 

195.3 

1  551.2 

7.78 

96  048 

1979 

10  559 

166.0 

217.7 

1  729.3 

10.25 

98  824 

1980 

8  979 

179.3 

247.0 

1  918.0 

11.28 

99  303 

1981 

8  535 

190.2 

272.3 

2  127.6 

13.73 

100  397 

1982 

7  980 

197.6 

286.6 

2  261.4 

11.20 

99  526 

1983 

9  179 

202.6 

297.4 

2  428.1 

8.69 

100  834 

1984 

10  394 

208.5 

307.6 

2  670.6 

9.65 

105  005 

1985 

11  039 

215.2 

318.5 

2  841.1 

7.75 

107 150 

1986 

11  450 

224.4 

323.4 

3  022.1 

6.31 

109  597 

Y  =  automoviles  de  pasajeros  nuevos  vendidos  (miles),  sin  ajuste  estacional. 

X2  =  automoviles  nuevos,  IPC,  1967  =  100,  sin  ajuste  estacional. 

X3  =  IPC,  todos  los  renglones,  todos  los  consumidores  urbanos,  1967  =  100,  sin  ajuste  estacional. 

X4  =  ingreso  personal  disponible  (IPD),  miles  de  millones  de  dolares,  sin  ajustar  por  variacion  estacional. 
X5  =  tasa  de  interes,  porcentaje,  colocation  directa  de  valores  de  la  compania  financiera. 

X(,  =  fuerza  laboral  civil  empleada  (miles),  sin  ajustar  por  variacion  estacional. 
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promedio  de  trabajo)  ante  un  incremento  de  los  salarios  por  hora.*  Los  datos  de  tal  es- 
tudio  se  obtuvieron  de  una  muestra  nacional  de  6  000  familias  cuyo  jefe  (varon)  ganaba 
menos  de  15  000  dolares  al  ano.  Los  datos  se  dividieron  en  39  grupos  demograficos  para 
su  analisis.  Estos  datos  se  proporcionan  en  la  tabla  10.15.  En  vista  de  que  para  cuatro 
grupos  demograficos  habia  datos  faltantes  respecto  de  algunas  variables,  los  datos  de  la 
tabla  se  refieren  solo  a  35  de  esos  grupos.  Las  definiciones  de  las  diversas  variables  del 
analisis  se  dan  al  final  de  la  tabla. 


TABLA  10.15 

Observacion 

Horas 

Tasa 

IAPE 

IAPO 

IPAN 

Valores 

Edad 

DEP 

Escolaridad 

Horas  de  trabajo  y  otros 

datos  para  35  grupos 

1 

2  157 

2.905 

1  121 

291 

380 

7  250 

38.5 

2.340 

10.5 

2 

2  174 

2.970 

1  128 

301 

398 

7  744 

39.3 

2.335 

10.5 

Fuente:  D.  H.  Greenberg  y  M. 

3 

2  062 

2.350 

1  214 

326 

185 

3  068 

40.1 

2.851 

8.9 

Kosters,  Income  Guarantees  and 
the  Working  Poor,  The  Rand  Cor¬ 
poration,  R-579-OEO,  diciembre 

4 

2  111 

2.511 

1  203 

49 

117 

1  632 

22.4 

1.159 

11.5 

5 

2  134 

2.791 

1  013 

594 

730 

12  710 

57.7 

1.229 

8.8 

de  1970. 

6 

2  185 

3.040 

1  135 

287 

382 

7  706 

38.6 

2.602 

10.7 

7 

2 

210 

3.222 

1 

100 

295 

474 

9 

338 

39.0 

2.187 

11.2 

8 

2 

105 

2.493 

1 

180 

310 

255 

4 

730 

39.9 

2.616 

9.3 

9 

2 

267 

2.838 

1 

298 

252 

431 

8 

317 

38.9 

2.024 

11.1 

10 

2 

205 

2.356 

885 

264 

373 

6 

789 

38.8 

2.662 

9.5 

11 

2 

121 

2.922 

1 

251 

328 

312 

5 

907 

39.8 

2.287 

10.3 

12 

2 

109 

2.499 

1 

207 

347 

271 

5 

069 

39.7 

3.193 

8.9 

13 

2 

108 

2.796 

1 

036 

300 

259 

4 

614 

38.2 

2.040 

9.2 

14 

2 

047 

2.453 

1 

213 

297 

139 

1 

987 

40.3 

2.545 

9.1 

15 

2 

174 

3.582 

1 

141 

414 

498 

10 

239 

40.0 

2.064 

11.7 

16 

2 

067 

2.909 

1 

805 

290 

239 

4 

439 

39.1 

2.301 

10.5 

17 

2 

159 

2.511 

1 

075 

289 

308 

5 

621 

39.3 

2.486 

9.5 

18 

2 

257 

2.516 

1 

093 

176 

392 

7 

293 

37.9 

2.042 

10.1 

19 

1 

985 

1.423 

553 

381 

146 

1 

866 

40.6 

3.833 

6.6 

20 

2 

184 

3.636 

1 

091 

291 

560 

11 

240 

39.1 

2.328 

11.6 

21 

2 

084 

2.983 

1 

327 

331 

296 

5 

653 

39.8 

2.208 

10.2 

22 

2 

051 

2.573 

1 

194 

279 

172 

2 

806 

40.0 

2.362 

9.1 

23 

2 

127 

3.262 

1 

226 

314 

408 

8 

042 

39.5 

2.259 

10.8 

24 

2 

102 

3.234 

1 

188 

414 

352 

7 

55  7 

39.8 

2.019 

10.7 

25 

2 

098 

2.280 

973 

364 

272 

4 

400 

40.6 

2.661 

8.4 

26 

2 

042 

2.304 

1 

085 

328 

140 

1 

739 

41.8 

2.444 

8.2 

27 

2 

181 

2.912 

1 

072 

304 

383 

7 

340 

39.0 

2.337 

10.2 

28 

2 

186 

3.015 

1 

122 

30 

352 

7 

292 

37.2 

2.046 

10.9 

29 

2 

188 

3.010 

990 

366 

374 

7 

325 

38.4 

2.847 

10.6 

30 

2 

077 

1.901 

350 

209 

95 

1 

370 

37.4 

4.158 

8.2 

31 

2 

196 

3.009 

947 

294 

342 

6 

888 

37.5 

3.047 

10.6 

32 

2 

093 

1.899 

342 

311 

120 

1 

425 

37.5 

4.512 

8.1 

33 

2 

173 

2.959 

1 

116 

296 

387 

7 

625 

39.2 

2.342 

10.5 

34 

2 

179 

2.971 

1 

128 

312 

397 

7 

779 

39.4 

2.341 

10.5 

35 

2 

200 

2.980 

1 

126 

204 

393 

7 

885 

39.2 

2.341 

10.6 

Notas:  Horas  =  horas  promedio  trabajadas  durante  el  ano. 

Tasa  =  salario  promedio  por  hora  (dolares). 

I  APE  =  ingresos  anuales  promedio  de  la  esposa  (dolares). 

IAPO  =  ingresos  anuales  promedio  de  otros  miembros  de  la  familia  (dolares). 
IPAN  =  ingreso  promedio  anual  no  devengado. 

Valores  =  bienes  familiares  promedio  (cuentas  bancarias,  etc.)  (dolares). 

Edad  =  edad  promedio  del  entrevistado. 

DEP  =  numero  promedio  de  dependientes. 

Escolaridad  =  nivel  maximo  de  escolaridad  promedio  completado. 


*  D.H.  Greenberg  y  M.  Kosters,  Income  Guarantees  and  the  Working  Poor,  Rand  Corporation,  R-579-OEO, 
diciembre  de  1 970. 
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a)  Realice  la  regresion  de  las  horas  promedio  trabajadas  durante  un  ano  sobre  las  varia¬ 
bles  suministradas  en  la  tabla  e  interprete  su  regresion. 

b )  /.Existe  evidencia  de  multicolinealidad  en  los  datos?  /.Como  sabe? 

c)  Calcule  las  medidas  del  factor  inflacionario  de  la  varianza  (VFI)  y  de  la  TOL  para  las 
diversas  regresoras. 

d)  Si  existe  un  problema  de  multicolinealidad,  /.quc  acciones  correctivas,  si  acaso  hay 
alguna,  tomaria? 

e)  /.Que  sugiere  este  estudio  sobre  la  viabilidad  de  un  impuesto  sobre  la  renta  negativo? 

10.31.  La  tabla  10.16  muestra  datos  sobre  la  tasa  de  criminalidad  en  47  estados  de  EU  durante 
1960.  Intente  elaborar  un  modelo  apropiado  para  explicar  la  tasa  de  criminalidad  respecto 
de  las  14  variables  socioeconomicas  de  la  tabla.  Ponga  especial  atencion  al  problema  de 
la  colinealidad  cuando  desarrolle  su  modelo. 

10.32.  Consulte  los  datos  Longley  suministrados  en  la  seccion  10.10.  Repita  la  regresion  dada 
en  esa  tabla  pero  sin  los  datos  de  1962;  es  decir,  haga  la  regresion  del  periodo  1947-1961 . 
Compare  ambas  regresiones.  /.Que  conclusion  general  deduce  de  este  ejercicio? 

10.33.  Datos  Longley  actualizados.  Ampliamos  los  datos  de  la  seccion  10.10  para  incluir  ob- 
servaciones  de  1959-2005.  Los  nuevos  datos  aparecen  en  la  tabla  10.17.  Los  datos  se 
relacionan  con  Y  =  numero  de  personas  empleadas,  en  millares;  X\  —  deflactor  de  pre- 
cios  implicito  del  PNB;  X2  —  PNB,  millones  de  dolares;  X2  =  numero  de  personas  des- 
empleadas,  en  millares;  X4  —  numero  de  personas  en  las  fuerzas  armadas,  en  millares; 
Xs  —  poblacion  no  institucionalizada  mayor  de  16  anos,  y  X()  —  ano,  igual  a  1  en  1959, 
2  en  1960  y  47  en  2005. 

a)  Trace  diagramas  de  dispersion,  como  se  indica  en  el  capitulo,  para  evaluar  las  relacio- 
nes  entre  las  variables  independientes.  /.Hay  relaciones  fuertes?  /.Parecen  lineales? 

b )  Elabore  una  matriz  de  correlacion.  /.Que  variables  parecen  relacionarse  mas  ente  si, 
sin  incluir  la  dependiente? 

c)  Ejecute  una  regresion  estandar  de  MCO  para  pronosticar  el  numero  de  personas  em¬ 
pleadas  en  millares.  /.Los  coeficientes  de  las  variables  independientes  se  comportan 
como  esperaria? 

d  )  Con  base  en  los  resultados  anteriores,  /.cree  que  estos  datos  sufren  de  multicolineali¬ 
dad? 

*10.34.  Conforme  el  queso  se  aneja,  varios  procesos  quimicos  tienen  lugar  y  determinan  el  sabor 
del  producto  final.  Los  datos  presentados  de  la  tabla  10.18  corresponden  a  concentra- 
ciones  de  varias  sustancias  quimicas  en  una  muestra  de  30  quesos  cheddar  maduros, 
y  medidas  subjetivas  respecto  del  sabor  de  cada  muestra.  Las  variables  acetico  y  H2S 
corresponden  al  logaritmo  natural  de  la  concentracion  de  acido  acetico  y  sulfuro  de  hidro- 
geno,  respectivamente.  La  variable  lactico  no  se  transformo  logaritmicamente. 

a)  Trace  un  diagrama  de  dispersion  de  las  cuatro  variables. 

b)  Ejecute  una  regresion  bivariada  del  sabor  sobre  acetico  y  ELS,  e  interprete  los  resul¬ 
tados. 

c)  Ejecute  una  regresion  bivariada  de  sabor  sobre  lactico  y  H2S,  e  interprete  los  resul¬ 
tados. 

d)  Ejecute  una  regresion  multiple  de  sabor  sobre  acetico,  H2S  y  lactico.  Interprete  los 
resultados. 

e)  Con  lo  que  ahora  sabe  sobre  multicolinealidad,  /.como  elegiria  entre  estas  regresiones? 
/)  /Que  conclusiones  generales  deduce  de  su  analisis? 


Opcional. 
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TABLA  10.16  Datos  sobre  criminalidad  en  47  estados  de  Estados  Unidos  en  1960 


Observacion 

R 

Edad 

5 

EP 

GXo 

GXi 

FT 

H 

N 

NB 

Ui 

U2 

w 

X 

1 

79.1 

151 

1 

91 

58 

56 

510 

950 

33 

301 

108 

41 

394 

261 

2 

163.5 

143 

0 

113 

103 

95 

583 

1  012 

13 

102 

96 

36 

557 

194 

3 

57.8 

142 

i 

89 

45 

44 

533 

969 

18 

219 

94 

33 

318 

250 

4 

196.9 

136 

0 

121 

149 

141 

577 

994 

157 

80 

102 

39 

673 

167 

5 

123.4 

141 

0 

121 

109 

101 

591 

985 

18 

30 

91 

20 

578 

174 

6 

68.2 

121 

0 

110 

118 

115 

547 

964 

25 

44 

84 

29 

689 

126 

7 

96.3 

127 

1 

111 

82 

79 

519 

982 

4 

139 

97 

38 

620 

168 

8 

155.5 

131 

1 

109 

115 

109 

542 

969 

50 

179 

79 

35 

472 

206 

9 

85.6 

157 

1 

90 

65 

62 

553 

955 

39 

286 

81 

28 

421 

239 

10 

70.5 

140 

0 

118 

71 

68 

632 

1  029 

7 

15 

100 

24 

526 

174 

11 

167.4 

124 

0 

105 

121 

116 

580 

966 

101 

106 

77 

35 

657 

170 

12 

84.9 

134 

0 

108 

75 

71 

595 

972 

47 

59 

83 

31 

580 

172 

13 

51.1 

128 

0 

113 

67 

60 

624 

972 

28 

10 

77 

25 

507 

206 

14 

66.4 

135 

0 

117 

62 

61 

595 

986 

22 

46 

77 

27 

529 

190 

15 

79.8 

152 

1 

87 

57 

53 

530 

986 

30 

72 

92 

43 

405 

264 

16 

94.6 

142 

1 

88 

81 

77 

497 

956 

33 

321 

116 

47 

427 

247 

17 

53.9 

143 

0 

110 

66 

63 

537 

977 

10 

6 

114 

35 

487 

166 

18 

92.9 

135 

1 

104 

123 

115 

537 

978 

31 

170 

89 

34 

631 

165 

19 

75.0 

130 

0 

116 

128 

128 

536 

934 

51 

24 

78 

34 

627 

135 

20 

122.5 

125 

0 

108 

113 

105 

567 

985 

78 

94 

130 

58 

626 

166 

21 

74.2 

126 

0 

108 

74 

67 

602 

984 

34 

12 

102 

33 

557 

195 

22 

43.9 

157 

1 

89 

47 

44 

512 

962 

22 

423 

97 

34 

288 

276 

23 

121.6 

132 

0 

96 

87 

83 

564 

953 

43 

92 

83 

32 

513 

227 

24 

96.8 

131 

0 

116 

78 

73 

574 

1  038 

7 

36 

142 

42 

540 

176 

25 

52.3 

130 

0 

116 

63 

57 

641 

984 

14 

26 

70 

21 

486 

196 

26 

199.3 

131 

0 

121 

160 

143 

631 

1  071 

3 

77 

102 

41 

674 

152 

27 

34.2 

135 

0 

109 

69 

71 

540 

965 

6 

4 

80 

22 

564 

139 

28 

121.6 

152 

0 

112 

82 

76 

571 

1  018 

10 

79 

103 

28 

537 

215 

29 

104.3 

119 

0 

107 

166 

157 

521 

938 

168 

89 

92 

36 

637 

154 

30 

69.6 

166 

1 

89 

58 

54 

521 

973 

46 

254 

72 

26 

396 

237 

31 

37.3 

140 

0 

93 

55 

54 

535 

1  045 

6 

20 

135 

40 

453 

200 

32 

75.4 

125 

0 

109 

90 

81 

586 

964 

97 

82 

105 

43 

617 

163 

33 

107.2 

147 

1 

104 

63 

64 

560 

972 

23 

95 

76 

24 

462 

233 

34 

92.3 

126 

0 

118 

97 

97 

542 

990 

18 

21 

102 

35 

589 

166 

35 

65.3 

123 

0 

102 

97 

87 

526 

948 

113 

76 

124 

50 

572 

158 

36 

127.2 

150 

0 

100 

109 

98 

531 

964 

9 

24 

87 

38 

559 

153 

37 

83.1 

177 

1 

87 

58 

56 

638 

974 

24 

349 

76 

28 

382 

254 

38 

56.6 

133 

0 

104 

51 

47 

599 

1  024 

7 

40 

99 

27 

425 

225 

39 

82.6 

149 

1 

88 

61 

54 

515 

953 

36 

165 

86 

35 

395 

251 

40 

115.1 

145 

1 

104 

82 

74 

560 

981 

96 

126 

88 

31 

488 

228 

41 

88.0 

148 

0 

122 

72 

66 

601 

998 

9 

19 

84 

20 

590 

144 

42 

54.2 

141 

0 

109 

56 

54 

523 

968 

4 

2 

107 

37 

489 

170 

43 

82.3 

162 

1 

99 

75 

70 

522 

996 

40 

208 

73 

27 

496 

224 

44 

103.0 

136 

0 

121 

95 

96 

574 

1  012 

29 

36 

111 

37 

622 

162 

45 

45.5 

139 

1 

88 

46 

41 

480 

968 

19 

49 

135 

53 

457 

249 

46 

50.8 

126 

0 

104 

106 

97 

599 

989 

40 

24 

78 

25 

593 

171 

47 

84.9 

130 

0 

121 

90 

91 

623 

1  049 

3 

22 

113 

40 

588 

160 

Fuente:  W.  Vandaele,  “Participation  in  Illegitimate  Activities:  Erlich  Revisted”,  en  A.  Blumstein,  J.  Cohen  y  Nagin  D.  (eds.),  Deterrence  and  Incapacitation,  National  Academy 
of  Sciences,  1978,  pp.  270-335. 

Definition  de  las  variables: 

R  =  tasa  de  criminalidad,  numero  de  delitos  reportados  a  la  policla  por  millon  de  personas. 

Edad  =  numero  de  hombres  entre  14  y  24  anos  de  edad  por  cada  1  000. 

S  =  variable  indicadora  de  los  estados  surenos  (1  =  si,  0  =  no). 

EP  =  numero  promedio  de  anos  de  escolaridad  multiplicado  por  10  para  personas  de  25  anos  o  mayores. 

GXo  =  gastos  de  la  policia  per  capita  a  cargo  del  estado  y  el  gobierno  local  en  1960. 

GXj  =  gastos  de  la  policia  per  capita  a  cargo  del  estado  y  el  gobierno  local  en  1959. 

FT  =  tasa  de  participation  de  la  fuerza  de  trabajo  por  cada  1  000  hombres  civiles  urbanos  entre  14  y  24  anos  de  edad. 

H  =  numero  de  hombres  por  cada  1  000  mujeres. 

N  =  tamano  de  la  poblacion  estatal  en  cientos  de  miles. 

NB  =  numero  de  no  blancos  por  cada  1  000  personas. 

D\  =  tasa  de  desempleo  de  hombres  urbanos  por  cada  100  habitantes  de  entre  14  y  24  anos  de  edad. 

D2  =  tasa  de  desempleo  de  hombres  urbanos  por  cada  100  habitantes  de  entre  35  y  39  anos  de  edad. 

W  =  valor  medio  de  bienes  y  valores  transferibles,  o  ingreso  familiar  en  decenas  de  dolares. 

X  =  numero  de  familias  por  1  000  salarios  iguales  a  la  Vi  de  la  mediana  del  ingreso. 

Observacion  =  estado  (47  estados  para  1960). 
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TABLA  10.17 

Datos  Longley  actualiza¬ 
tion  1959-2005 

Fuente:  Department  of  Labor, 
Bureau  of  Labor  Statistics, 
Estados  Unidos,  y  http://diadapp. 
dmdc.osd.mil/personnel/ 
MILITARY/Miltop.htm. 


Observacion 

Y 

*2 

*3 

X4 

*5 

*6 

1959 

64  630 

82.908 

509  300 

3  740 

2  552 

120  287 

1 

1960 

65  778 

84.074 

529  500 

3  852 

2  514 

121  836 

2 

1961 

65  746 

85.015 

548  200 

4  714 

2  573 

123  404 

3 

1962 

66  702 

86.186 

589  700 

3  911 

2  827 

1 24  864 

4 

1963 

67  762 

87.103 

622  200 

4  070 

2  737 

127  274 

5 

1964 

69  305 

88.438 

668  500 

3  786 

2  738 

129  427 

6 

1965 

71  088 

90.055 

724  400 

3  366 

2  722 

131  541 

7 

1966 

72  895 

92.624 

792  900 

2  875 

3  123 

133  650 

8 

1967 

74  372 

95.491 

838  000 

2  975 

3  446 

1  35  905 

9 

1968 

75  920 

99.56 

916 100 

2  817 

3  535 

138  171 

10 

1969 

77  902 

104.504 

990  700 

2  832 

3  506 

140  461 

11 

1970 

78  678 

110.046 

1  044  900 

4  093 

3  188 

143  070 

12 

1971 

79  367 

115.549 

1  1 34  700 

5  016 

2  816 

145  826 

13 

1972 

82  153 

120.556 

1  246  800 

4  882 

2  449 

148  592 

14 

1973 

85  064 

127.307 

1  395  300 

4  365 

2  327 

151  476 

15 

1974 

86  794 

138.82 

1  515  500 

5  156 

2  229 

154  378 

16 

1975 

85  846 

151.857 

1  651  300 

7  929 

2  180 

157  344 

17 

1976 

88  752 

160.68 

1  842  100 

7  406 

2  144 

160  319 

18 

1977 

92  017 

170.884 

2  051  200 

6  991 

2  133 

163  377 

19 

1978 

96  048 

182.863 

2  316  300 

6  202 

2  117 

166  422 

20 

1979 

98  824 

198.077 

2  595  300 

6  137 

2  088 

1  69  440 

21 

1980 

99  303 

216.073 

2  823  700 

7  637 

2  102 

172  437 

22 

1981 

100  397 

236.385 

3  161  400 

8  273 

2  142 

1  74  929 

23 

1982 

99  526 

250.798 

3  291  500 

10  678 

2  179 

177 176 

24 

1983 

100  834 

260.68 

3  573  800 

10  717 

2  199 

179  234 

25 

1984 

1 05  005 

270.496 

3  969  500 

8  539 

2  219 

181  192 

26 

1985 

107 150 

278.759 

4  246  800 

8  312 

2  234 

183 174 

27 

1986 

109  597 

284.895 

4  480  600 

8  237 

2  244 

1 85  284 

28 

1987 

112  440 

292.691 

4  757  400 

7  425 

2  257 

187  419 

29 

1988 

114  968 

302.68 

5  127  400 

6  701 

2  224 

189  233 

30 

1989 

1 1  7  342 

314.179 

5  510  600 

6  528 

2  208 

190  862 

31 

1990 

118  793 

326.357 

5  837  900 

7  047 

2  167 

1 92  644 

32 

1991 

117  718 

337.747 

6  026  300 

8  628 

2  118 

194  936 

33 

1992 

118  492 

345.477 

6  367  400 

9  613 

1  966 

197  205 

34 

1993 

120  259 

353.516 

6  689  300 

8  940 

1  760 

199  622 

35 

1994 

123  060 

361.026 

7  098  400 

7  996 

1  673 

201  970 

36 

1995 

124  900 

368.444 

7  433  400 

7  404 

1  579 

204  420 

37 

1996 

126  708 

375.429 

7  851  900 

7  236 

1  502 

207  087 

38 

1997 

129  558 

381.663 

8  337  300 

6  739 

1  457 

209  846 

39 

1998 

131  463 

385.881 

8  768  300 

6  210 

1  423 

212  638 

40 

1999 

133  488 

391.452 

9  302  200 

5  880 

1  380 

215  404 

41 

2000 

136  891 

399.986 

9  855  900 

5  692 

1  405 

218  061 

42 

2001 

136  933 

409.582 

10  171  600 

6  801 

1  412 

220  800 

43 

2002 

1  36  485 

416.704 

10  500  200 

8  378 

1  425 

223  532 

44 

2003 

137  736 

425.553 

1 1  01  7  600 

8  774 

1  423 

226  223 

45 

2004 

139  252 

437.795 

11  762  100 

8  149 

1  411 

228  892 

46 

2005 

141  730 

451.946 

12  502  400 

7  591 

1  378 

231  552 

47 
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TARIAiniR 

Obs. 

Sabor 

Acetico 

H?S 

Lactico 

Sustancias  quimicas  en 

quesos 

i 

12.30000 

4.543000 

3.135000 

0.860000 

2 

20.90000 

5.159000 

5.043000 

1.530000 

Fuente:  http://lib.stat.cmu.edu/ 

3 

39.00000 

5.366000 

5.438000 

1.570000 

DASL/Datafiles/Cheese.html. 

4 

47.90000 

5.759000 

7.496000 

1.810000 

5 

5.600000 

4.663000 

3.807000 

0.990000 

6 

25.90000 

5.697000 

7.601000 

1.090000 

7 

37.30000 

5.892000 

8.726000 

1.290000 

8 

21.90000 

6.078000 

7.966000 

1.780000 

9 

18.10000 

4.898000 

3.850000 

1.290000 

10 

21.00000 

5.242000 

4.174000 

1.580000 

11 

34.90000 

5.740000 

6.142000 

1.680000 

12 

57.20000 

6.446000 

7.908000 

1 .900000 

13 

0.700000 

4.477000 

2.996000 

1.060000 

14 

25.90000 

5.236000 

4.942000 

1.300000 

15 

54.90000 

6.151000 

6.752000 

1.520000 

16 

40.90000 

3.365000 

9.588000 

1.740000 

17 

15.90000 

4.787000 

3.912000 

1.160000 

18 

6.400000 

5.142000 

4.700000 

1 .490000 

19 

18.00000 

5.247000 

6.174000 

1.630000 

20 

38.90000 

5.438000 

9.064000 

1 .990000 

21 

14.00000 

4.564000 

4.949000 

1.150000 

22 

15.20000 

5.298000 

5.220000 

1.330000 

23 

32.00000 

5.455000 

9.242000 

1 .440000 

24 

56.70000 

5.855000 

10.19900 

2.010000 

25 

16.80000 

5.366000 

3.664000 

1.310000 

26 

1 1 .60000 

6.043000 

3.219000 

1 .460000 

27 

26.50000 

6.458000 

6.962000 

1.720000 

28 

0.700000 

5.328000 

3.912000 

1 .250000 

29 

13.40000 

5.802000 

6.685000 

1.080000 

30 

5.500000 

6.176000 

4.787000 

1.250000 

Capitulo 


II 

Heteroscedasticidad: 
<;que  pasa  si  la 
varianza  del  error 
no  es  constante? 


Un  supuesto  importante  del  modelo  clasico  de  regresion  lineal  (supuesto  4)  es  que  las  pertur- 
baciones  m,  que  aparecen  en  la  funcion  de  regresion  poblacional  son  homoscedasticas;  es  decir, 
que  todas  tienen  la  misma  varianza.  En  este  capitulo  examinaremos  la  validez  de  este  supuesto 
y  tambien  lo  que  sucede  si  no  se  cumple.  Como  en  el  capitulo  10,  buscamos  respuestas  a  las 
siguientes  preguntas: 

1 .  ^Cual  es  la  naturaleza  de  la  heteroscedasticidad? 

2.  ^Cuales  son  sus  consecuencias? 

3.  ^Como  se  detecta? 

4.  (',Quc  remedios  existen? 


11.1  Naturaleza  de  la  heteroscedasticidad 


Como  vimos  en  el  capitulo  3,  un  supuesto  importante  del  modelo  clasico  de  regresion  lineal  es 
que  la  varianza  de  cada  termino  de  perturbacion  u,,  condicional  a  los  valores  seleccionados  de  las 
variables  explicativas,  es  algun  numero  constante  igual  a  a2.  Este  es  el  supuesto  de  homoscedas- 
ticidad,  o  igual  (homo)  dispersion  (cedasticidad),  es  decir,  igual  varianza.  Simbolicamente, 

E(u2)  =  ct2  i  =  1,  2, . . . ,  n  (11.1.1) 

Graficamente,  la  homoscedasticidad  en  el  modelo  de  regresion  con  dos  variables  se  observa 
en  la  figura  3 .4,  la  cual,  por  conveniencia,  se  reproduce  como  la  figura  11.1.  Como  lo  indica  esta 
figura,  la  varianza  condicional  de  Y,  (la  cual  es  igual  a  la  de  condicional  a  las  X,  dadas,  per- 
manece  igual  sin  importar  los  valores  que  tome  la  variable  X. 

En  contraste,  observe  la  figura  1 1 .2,  donde  la  varianza  condicional  de  Y,  aumenta  a  medida 
que  lo  hace  X.  Aqui,  las  varianzas  de  Y,  no  son  las  mismas.  Por  tanto,  hay  heteroscedasticidad. 
Simbolicamente, 


E  (u2)  =  a 2 


(11.1.2) 


366  Parte  Dos  Flexibilizacion  de  los  supuestos  del  modelo  clasico 


FIGURA  11.1 

Perturbaciones  homosce- 
dasticas. 


FIGURA  11.2 

Perturbaciones  heterosce- 
dasticas. 


Observe  el  subindice  de  a2,  que  indica  que  las  varianzas  condicionales  de  u,  {—  varianzas 
condicionales  de  Y)  ya  no  son  constantes. 

Para  entender  la  diferencia  entre  homoscedasticidad  y  heteroscedasticidad,  suponga  que  en 
el  modelo  con  dos  variables  Yt  —  fi i  +  faX,  +  u„  Y  representa  el  ahorro  y  X  el  ingreso.  Las  fi¬ 
gures  11.1  y  11.2  indican  que,  a  medida  que  el  ingreso  aumenta,  el  ahorro  en  promedio  tambien 
aumenta.  Pero,  en  la  figure  1 1.1,  la  varianza  del  ahorro  permanece  igual  en  todos  los  niveles  de 
ingreso,  mientras  que  en  la  figure  1 1 .2  se  incrementa  con  aumentos  del  ingreso.  Parece  que  en  la 
figure  1 1 .2,  en  promedio,  las  familias  de  ingresos  mas  altos  ahorran  mas  que  las  de  ingresos  mas 
bajos,  pero  tambien  hay  mas  variabilidad  en  su  ahorro. 

Hay  diversas  razones  por  las  cuales  las  varianzas  de  u,-  pueden  ser  variables,  algunas  de  las 
cuales  son  las  siguientes. 1 

1.  Con  base  en  los  modelos  de  aprendizaje  de  los  errores,  a  medida  que  la  gente  aprende, 
disminuyen  sus  errores  de  comportamiento  con  el  tiempo.  En  este  caso,  esperamos  que  cr2  se 
reduzca.  Como  ejemplo,  considere  la  figure  1 1.3,  que  relaciona  el  numero  de  errores  cometidos 
en  una  prueba  de  mecanografia  durante  un  periodo  dado.  Como  indica  la  figure  1 1.3,  a  medida 
que  aumenta  el  numero  de  horas  de  esta  practica,  se  reduce  el  numero  promedio  de  errores  de 
mecanografia,  al  igual  que  sus  varianzas. 

2.  A  medida  que  aumentan  los  ingresos,  la  gente  posee  mas  ingreso  discrecional 2  y,  por 
tanto,  tiene  mayores  posibilidades  de  decidir  como  disponer  de  su  ingreso.  En  consecuencia, 


1  Vease  Stefan  Valavanis,  Econometrics,  McGraw-Hill,  Nueva  York,  1 959,  p.  48. 

2  Como  senala  Valavanis,  "El  ingreso  aumenta  y  ahora  la  gente  escasamente  distingue  los  dolares,  mientras 
que  antes  distingufa  las  monedas  de  diez  centavos",  ibid.,  p.  48. 
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FIGURA  11.3 

Ilustracion  de  la  heteros¬ 
cedasticidad. 


X 


es  probable  que  of  aumente  con  el  ingreso.  Asi,  en  la  regresion  del  ahorro  sobre  el  ingreso,  es 
probable  encontrar  que  of  aumenta  con  el  ingreso  (como  en  la  figura  1 1 .2),  pues  las  personas 
tienen  mayores  posibilidades  de  determinar  su  comportamiento  respecto  del  ahorro.  En  forma 
similar,  se  espera  que  las  companias  con  mayores  ganancias  presenten  mayor  variabilidad  en  sus 
politicas  de  dividendos  que  las  companias  cuyas  ganancias  son  menores.  Ademas,  es  probable 
que  las  empresas  orientadas  al  crecimiento  presenten  una  mayor  variabilidad  en  sus  tasas  de  pago 
de  dividendos  que  las  empresas  ya  establecidas. 

3.  A  rnedida  que  mejoran  las  tecnicas  de  recoleccion  de  datos,  es  probable  que  of  se  reduzca. 
Asi,  es  probable  que  los  bancos  con  equipos  complejos  de  procesamiento  de  informacion  come- 
tan  menos  errores  en  los  informes  mensuales  o  trimestrales  de  sus  clientes  que  los  bancos  que 
no  los  posean. 

4.  La  heteroscedasticidad  tambien  surge  por  la  presencia  de  datos  atlpicos  o  aberrantes.  Una 
observacion  atipica  es  la  que  es  muy  diferente  (muy  pequena  o  muy  grande)  en  relacion  con  las 
demas  observaciones  en  la  muestra.  De  manera  mas  precisa,  un  dato  atipico  es  una  observacion 
que  proviene  de  una  poblacion  distinta  a  la  que  genera  las  demas  observaciones  de  la  muestra.3 
La  inclusion  o  exclusion  de  una  observacion  de  este  tipo,  en  especial  si  el  tamano  de  la  muestra 
es  pequeno,  puede  alterar  sustancialmente  los  resultados  del  analisis  de  regresion. 

Como  ejemplo  considere  el  diagrama  de  dispersion  de  la  figura  1 1.4.  Con  base  en  los  datos 
de  la  tabla  1 1.9  del  ejercicio  1 1.22,  en  esta  figura  graficamos  la  tasa  de  cambio  porcentual  de  los 
precios  de  las  acciones  (Y)  y  los  precios  al  consumidor  (X)  para  el  periodo  posterior  a  la  Segunda 
Guerra  Mundial  hasta  1969  en  20  paises.  En  esta  figura,  la  observacion  sobre  Y  y  X  para  Chile  se 
considera  atipica,  pues  los  valores  Y  y  X  son  mucho  mas  grandes  que  para  el  resto  de  los  paises. 
En  estas  situaciones  es  dificil  mantener  el  supuesto  de  homoscedasticidad.  En  el  ejercicio  1 1.22 
se  le  pide  ver  que  sucede  con  los  resultados  de  la  regresion  si  se  retiran  del  analisis  las  observa¬ 
ciones  de  Chile. 

5.  Otra  fuente  de  heteroscedasticidad  surge  de  la  violacion  del  supuesto  9  del  MCRL,  que 
establece  que  el  modelo  de  regresion  esta  correctamente  especificado.  Aunque  analizaremos  mas 
a  fondo  los  errores  de  especificacion  en  el  capitulo  13,  con  rnucha  frecuencia  lo  que  parece 
heteroscedasticidad  puede  deberse  a  que  se  omitan  del  modelo  algunas  variables  importantes. 
Asi,  en  la  funcion  de  demanda  de  un  bien,  si  no  se  incluyen  los  precios  de  los  bienes  que  le  son 
complementarios  o  con  los  que  compite  (sesgo  de  variable  omitida),  los  residuos  de  la  regresion 
pueden  dar  la  clara  impresion  de  que  la  varianza  del  error  no  es  constante.  Pero  si  se  incluyen  en 
el  modelo  las  variables  omitidas,  esa  impresion  puede  desaparecer. 


3  El  autor  agradece  a  Michael  McAleer  por  este  senalamiento. 
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FIGURA  11.4 

Relation  entre  precios  de 
acciones  y  precios  al  con- 
sumidor. 
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Como  un  ejemplo  concreto,  recuerde  el  estudio  de  los  impactos  publicitarios  retenidos  (7)  en 
relation  con  el  gasto  en  publicidad  ( X ).  (Consulte  el  ejercicio  8.32.)  Si  solo  hace  la  regresion  de 
Y  sobre  X  y  se  observan  los  residuos  de  esta  regresion,  se  presenta  un  patron,  pero  si  se  efectua 
la  regresion  de  Y  sobre  X  y  sobre  X2,  se  vera  otro  patron,  lo  cual  se  distingue  con  claridad  en  la 
figura  11.5.  Ya  comprobamos  quc  X2  pertenece  al  modelo.  (Consulte  el  ejercicio  8.32.) 

6.  Otra  fuente  de  la  heteroscedasticidad  es  la  asimetria  en  la  distribution  de  una  o  mas  regre- 
soras  incluidas  en  el  modelo.  Los  ejemplos  los  constituyen  variables  economicas  como  ingreso, 
riqueza  y  escolaridad.  Es  bien  sabido  que  la  distribution  del  ingreso  y  la  riqueza  en  la  mayoria 
de  las  sociedades  es  desigual,  pues  la  mayor  parte  del  ingreso  o  la  riqueza  le  corresponde  a  unos 
cuantos  individuos  pertenecientes  a  los  estratos  superiores. 

7.  Otras  fuentes  de  heteroscedasticidad:  como  senala  David  Hendry,  la  heteroscedasticidad 
tambien  surge  debido  a  1)  la  incorrecta  transformation  de  los  datos  (por  ejemplo,  las  transfor- 
maciones  de  razon  o  de  primeras  diferencias)  y  2)  una  forma  funcional  incorrecta  (por  ejemplo, 
modelos  lineales  frente  a  modelos  log-lineales).4 


FIGURA  11.5 

Residuos  de  las  regre- 
siones  de  a)  impactos 
publicitarios  en  el  gasto 
publicitario  (GASP)  y  b) 
impactos  publicitarios  en 
GASP  y  GASP2. 


a) 


b) 


4  David  F.  Hendry,  Dynamic  Econometrics,  Oxford  University  Press,  1 995,  p.  45. 
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Observe  que  el  problema  de  heteroscedasticidad  es  quiza  mas  comun  en  la  informacion  de 
corte  transversal  que  en  la  de  series  de  tiempo.  En  la  informacion  de  corte  transversal,  por  lo 
general  se  trata  con  miembros  de  una  poblacion  en  un  momento  dado,  como  consumidores  in¬ 
dividuates  o  sus  familias,  empresas,  industrias  o  subdivisiones  geograficas,  como  estados,  pai- 
ses,  ciudades,  etc.  Ademas,  estos  miembros  pueden  ser  de  diferentes  tamanos,  como  empresas 
pequenas,  medianas  o  grandes,  o  ingresos  bajos,  medios  o  altos.  En  las  series  de  tiempo,  por  el 
contrario,  las  variables  tienden  a  ser  de  ordenes  de  magnitud  similares  porque  suele  recopilarse 
informacion  sobre  el  mismo  fenomeno  o  hecho  a  lo  largo  de  un  periodo.  Son  ejemplos  el  PIB,  el 
gasto  de  consumo,  el  ahorro  o  el  empleo  en  Estados  Unidos,  por  decir,  de  1955  a  2005. 

A  manera  de  ilustracion  sobre  la  heteroscedasticidad  que  es  posible  encontrar  en  un  analisis 
de  corte  transversal,  considere  la  tabla  11.1.  Esta  tabla  presenta  informacion  sobre  salarios  por 
empleado  en  10  industrias  manufactureras  de  bienes  no  duraderos,  clasificadas  scgun  el  numero 
de  empleados  de  la  empresa  o  establecimiento  en  1958.  En  la  tabla  se  presentan  ademas  cifras  de 
productividad  promedio  de  nueve  clases  de  empleados. 

Aunque  las  industrias  difteran  en  la  composicion  de  su  produccion,  la  tabla  11.1  muestra  con 
claridad  que,  en  promedio,  las  empresas  grandes  pagan  mas  que  las  pequenas.  Como  ejemplo,  las 
empresas  que  emplean  entre  uno  y  cuatro  empleados  pagaron,  en  promedio,  sueldos  de  alrededor  de 
$3  396,  mientras  que  las  que  emplean  entre  1  000  y  2  499  empleados,  en  promedio,  alrededor 
de  $4  843.  Pero  observe  que  hay  una  gran  variabilidad  en  los  ingresos  entre  las  diversas  clases  de 
empleados,  como  indican  las  desviaciones  estandar  estimadas  de  los  salarios.  Esto  tambien  se 


TABLA  11.1  Salario  por  empleado  (dolares)  en  la  industria  de  manufactura  de  bienes  no  duraderos,  de  acuerdo  con  el 
numero  de  empleados  del  establecimiento,  1958 


Tamano  de  la  plantilla  laboral  (numero  promedio  de  empleados) 


Industria 

1-4 

5-9 

10-19 

20-49 

50-99 

100-249 

250-499 

500-999 

1  000-2  499 

Alimentos  y 
similares 

2  994 

3  295 

3  565 

3  907 

4  189 

4  486 

4  676 

4  968 

5  342 

Productos  del 
tabaco 

1  721 

2  057 

3  336 

3  320 

2  980 

2  848 

3  072 

2  969 

3  822 

Productos  textiles 

3  600 

3  657 

3  674 

3  437 

3  340 

3  334 

3  225 

3  163 

3  168 

Ropa  y  productos 
relacionados 

3  494 

3  787 

3  533 

3  215 

3  030 

2  834 

2  750 

2  967 

3  453 

Papel  y  similares 

3  498 

3  847 

3  913 

4  135 

4  445 

4  885 

5  132 

5  342 

5  326 

Impresion  y 
publicacion 

3  611 

4  206 

4  695 

5  083 

5  301 

5  269 

5  182 

5  395 

5  552 

Productos 
qufmicos 
y  similares 

3  875 

4  660 

4  930 

5  005 

5  114 

5  248 

5  630 

5  870 

5  876 

Productos 
petroleros 
y  carboniferos 

4  616 

5  181 

5  317 

5  337 

5  421 

5  710 

6  316 

6  455 

6  347 

Productos  de 
caucho  y 
plasticos 

3  538 

3  984 

4  014 

4  287 

4  221 

4  539 

4  721 

4  905 

5  481 

Cuero  y  productos 
de  cuero 

3  016 

3  196 

3  149 

3  317 

3  414 

3  254 

3  177 

3  346 

4  067 

Remuneracion 

promedio 

3  396 

3  787 

4  013 

4  104 

4  146 

4  241 

4  388 

4  538 

4  843 

Desviacion 

estandar 

742.2 

851.4 

727.8 

805.06 

929.9 

1  080.6 

1  241.2 

1  307.7 

1  110.7 

Productividad 

promedio 

9  355 

8  584 

7  962 

8  275 

8  389 

9  418 

9  795 

10  281 

11  750 

Fuente:  The  Census  of  Manufacturers,  U.S.  Department  of  Commerce,  1958  (calculado  por  el  autor). 
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FIGURA  11.6 

Desviacion  estandar  del 
salario  y  salario  medio. 


aprecia  en  la  figura  1 1.6,  que  muestra  la  desviacion  estandar  de  los  salarios  y  el  salario  medio 
en  cada  clase  de  empleados.  Como  se  ve  claramente,  en  promedio,  la  desviacion  estandar  de  los 
salarios  crece  con  el  valor  promedio  de  los  salarios. 


11.2 


Estimacion  por  MCO  en  presencia  de  heteroscedasticidad 


<,Quc  sucede  con  los  estimadores  de  MCO  y  sus  varianzas  si  introducimos  la  heteroscedasticidad 
permitiendo  que  E(uj)  —  erf  pero  conservamos  todos  los  demas  supuestos  del  modelo  clasico? 
Para  responder,  recuerde  el  modelo  con  dos  variables: 

Yi  —  P  i  +  Pi  Xj  +  Uj 

A1  aplicar  la  formula  usual,  el  estimador  de  MCO  de  Pi  es 


Pi 


TXiYi 

TXf 

nY.XiYj-Y.XiT.Yi 

nYXj-(YXi)2 


(11.2.1) 


pero  su  varianza  esta  dada  ahora  por  la  siguiente  expresion  (apendice  1 1A,  seccion  1 1A.  1): 


var (Pi)  - 


(M2 


(11.2.2) 


que  obviamente  difiere  de  la  formula  usual  de  varianza  obtenida  segun  el  supuesto  de  homosce- 
dasticidad,  es  decir, 


var(j62)  = 


(11.2.3) 
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Desde  luego,  si  of  —  o2  para  cada  i,  las  dos  formulas  seran  identicas.  (^Por  que?) 

Recuerde  que  fJ>2  es  el  mejor  estimador  lineal  e  insesgado  (MELI)  si  se  mantienen  los  supues- 
tos  del  modelo  clasico,  inclusive  el  de  homoscedasticidad.  ^Seguira  siendo  MELI  aunque  solo 
eliminemos  el  supuesto  de  homoscedasticidad  y  lo  reemplacemos  por  el  de  heteroscedasticidad? 
Es  facil  probar  que  /1 2  es  aun  lineal  e  insesgado.  En  realidad,  como  se  indica  en  el  apendice  3A, 
seccion  3A.2,  para  establecer  el  insesgamiento  de  /32  no  es  necesario  que  las  perturbaciones 
(t<i)  sean  homoscedasticas.  En  realidad,  la  varianza  de  u„  homoscedastica  o  heteroscedastica,  no 
desempena  papel  alguno  en  la  determinacion  de  la  propiedad  de  insesgamiento.  Recuerde  que 
en  el  apendice  3A,  seccion  3A.7,  vimos  que  /§2  es  un  estimador  consistente  segun  los  supuestos 
del  modelo  clasico  de  regresion  lineal.  Aunque  no  lo  demostraremos,  se  puede  probar  que  (ft  es 
un  estimador  consistente  a  pesar  de  la  heteroscedasticidad;  es  decir,  conforme  el  tamano  de  la 
muestra  se  incrementa  de  manera  indefinida,  el  /S2  estimado  converge  a  su  valor  verdadero.  Es 
mas,  tambien  puede  demostrarse  que,  en  ciertas  condiciones  (de  regulacion),  ft>2  esta  distribuida 
de  manera  asintotica  y  normal.  Por  supuesto,  lo  que  afirmamos  respecto  de  ftn  tambien  vale  para 
otros  parametros  de  un  modelo  de  regresion  multiple. 

En  el  supuesto  de  que  ft 2  continue  siendo  lineal,  insesgado  y  consistente,  (',es  “eficiente”  o  “el 
mejor”?  Es  decir,  ^tendra  varianza  minima  en  la  clase  de  los  estimadores  lineales  e  insesgados? 
{Y  dicha  varianza  minima  estara  dada  por  la  ecuacion  (11.2.2)?  La  respuesta  a  ambas  pregun- 
tas  es  no:  fti  deja  de  ser  el  mejor  y  la  varianza  minima  ya  no  esta  dada  por  (1 1.2.2).  Entonces, 
(■.cual  estimador  es  MELI  en  presencia  de  heteroscedasticidad?  La  respuesta  se  da  en  la  siguiente 
seccion. 


11.3 


El  metodo  de  minimos  cuadrados  generalizados  (MCG) 


(',Por  que  el  estimador  usual  de  MCO  de  ft 2  dado  en  (1 1.2.1)  no  es  el  mejor,  aunque  todavia  sea 
insesgado?  La  razon  se  intuye  en  la  tabla  11.1.  Como  se  indica  ahi,  hay  una  gran  variabilidad  en 
los  ingresos  entre  clases  de  empleados.  Si  efectuasemos  una  regresion  de  salarios  por  empleado 
sobre  el  tamano  de  la  planta  laboral  seria  recomendable  aprovechar  el  conocimiento  de  que  existe 
considerable  variabilidad  entre  los  salarios  de  las  diferentes  clases.  Idealmente,  querriamos  di- 
senar  un  esquema  de  estimacion  de  manera  que  las  observaciones  que  surgen  de  poblaciones 
con  mayor  variabilidad  reciban  menos  peso  que  las  que  provienen  de  poblaciones  con  menor 
variabilidad.  A1  examinar  la  tabla  11.1  nos  gustaria  dar  mayor  ponderacion  a  las  observaciones 
que  provienen  de  las  clases  de  empleados  10-19  y  20-49  que  a  las  clases  de  empleados  como 
5-9  y  250-499,  pues  las  primeras  estan  mas  concentradas  alrededor  de  sus  valores  medios  que  las 
ultimas,  lo  que  permite  estimar  la  FRP  en  forma  mas  precisa. 

Por  desgracia,  el  metodo  de  MCO  usual  no  sigue  esta  estrategia  y,  por  consiguiente,  no  apro- 
vecha  la  “informacion”  contenida  en  la  variabilidad  desigual  de  la  variable  dependiente  Y,  como 
sucede  con  la  compensacion  salarial  de  los  empleados  de  la  tabla  11.1:  este  metodo  asigna  igual 
peso  o  importancia  a  cada  observation.  Pero  existe  un  metodo  de  estimacion,  conocido  como 
minimos  cuadrados  generalizados  (MCG),  que  toma  en  cuenta  esa  informacion  explicitamente 
y,  por  consiguiente,  es  capaz  de  producir  estimadores  que  son  MELI.  Para  ver  como  se  hace, 
considere  el  modelo  ya  familiar  con  dos  variables: 

Yi  =  A  +  ft2Xi  +  u,  (11.3.1) 

el  cual,  para  facilitar  el  reordenamiento  algebraico,  escribimos  como 

Yi  =  ftiX0i  +  hXt  +  Ui  (11.3.2) 


donde  Xq,  =  1  para  cada  i.  El  lector  puede  ver  que  estas  dos  formulaciones  son  identicas. 
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Ahora,  suponga  que  se  conocen  las  varianzas  heteroscedasticas  of.  Divida  ambos  lados  de 
(1 1.3.2)  entre  er,-  para  obtener 


0; 


(11.3.3) 


la  cual,  para  facilidad  de  exposicion,  escribimos  como 


*?  =  «  +P*2X*  +  u*  (11.3.4) 

en  donde  las  variables  con  asterisco  o  transformadas  son  las  variables  originales  divididas  entre 
0;  (conocida).  Utilizamos  la  notacion  ft*  y  ft\,  los  parametros  del  modelo  transformado,  para 
distinguirlos  de  los  parametros  de  MCO  usuales  ft\  y  ftn- 

/,Cual  es  el  proposito  de  transformar  el  modelo  original?  Para  ver  esto,  observe  la  siguiente 
caracteristica  del  termino  de  error  transformado  it*'. 


,*x2 


1 

=  i 


/  \  2 
/  Hi  \ 

- 

porque  E(u  )  =  0 

\0i/ 

porque  se  conoce  of 

(11.3.5) 

porque  E  ( u ?)  =  of 

que  es  una  constante.  Es  decir,  la  varianza  del  termino  de  perturbacion  transformado  u*  es  ahora 
homoscedastica.  Como  aun  se  conservan  los  demas  supuestos  del  modelo  clasico,  el  hallazgo 
de  que  u*  es  homoscedastico  sugiere  que  si  se  aplican  MCO  al  modelo  transformado  (11.3.3) 
se  produciran  estimadores  MELI.  En  resumen,  los  ft*  y  ft\  estimados  son  ahora  MELI  y  no  los 
estimadores  de  MCO,  ft\  y  ft>2- 

Este  procedimiento  de  transformar  las  variables  originales  de  forma  que  las  variables  trans¬ 
formadas  satisfagan  los  supuestos  del  modelo  clasico  y  de  aplicar  luego  MCO  a  ellos  se  conoce 
como  metodo  de  minimos  cuadrados  generalizados  (MCG).  En  resumen,  MCG  es  MCO  sobre 
las  variables  transformadas  que  satisfacen  los  supuestos  estandar  de  minimos  cuadrados.  Los 
estimadores  asi  obtenidos  se  conocen  como  estimadores  de  MCG,  y  son  estos  estimadores  los 
que  son  MELI. 

El  mecanismo  de  estimacion  de  ft*  y  ft*  es  el  siguiente.  Primero  escribimos  la  FRM  de 
(11.3.3) 


07 


Y*  =  ft*X*0i  +  ft*X*  +  u*  (1 1 .3.6) 

Ahora,  para  obtener  los  estimadores  de  MCG,  reducimos 

£  u]*  =  -  fttx*)2 

es  decir, 
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El  mecanismo  real  para  minimizar  (11.3.7)  sigue  las  tecnicas  estandar  del  calculo  y  se  presenta 
en  el  apendice  1 1  A,  seccion  1 1  A.2.  Como  all!  se  muestra,  el  estimador  de  MCG  de  /If  es 

a*  =  (E  w/)(E  WjXj  Yj)  -  (E  WiXj) (E  w,-  Yj) 

2  (EwO(E^)-(E^)2 

y  su  varianza  esta  dada  por 


var(/§f) 


_ Ew- _ 

(Ew,)(Ew,^)-(E^E2 


(11.3.9) 


donde  w,-  =  1/cr?. 


Diferencia  entre  MCO  y  MCG 

Recuerde,  del  capltulo  3,  que  en  MCO  reducimos 

£«?  =  £(!';■- A -02*i)2  (11.3.10) 

pero  en  MCG  reducimos  la  expresion  (1 1 .3.7),  la  cual  tambien  se  escribe  como 

J2  mu]  =  W‘(  Y‘  -  -  foXi)2  (1 1  -3.11) 


donde  w,-  =  l/cr(2  [verifique  que  (11.3.11)  y  (11.3.7)  sean  identicas]. 

Por  tanto,  en  MCG  se  reduce  una  suma  ponderada  de  residuos  al  cuadrado  donde  w,  =  1  /af 
actuan  como  ponderacion,  pero  en  MCO  se  reduce  la  SCR  sin  ponderar  o  (lo  que  equivale  a  lo 
mismo)  con  ponderaciones  iguales.  Como  muestra  (11.3.7),  en  MCG,  el  peso  asignado  a  cada 
observacion  es  inversamente  proporcional  a  su  ay,  es  decir,  las  observaciones  que  provienen  de 
una  poblacion  con  una  er,  mas  grande  tendran  una  ponderacion  relativamente  menor,  y  las  de  una 
poblacion  con  un  a,  menor  tendran  una  ponderacion  proporcionalmente  mayor  al  reducir  la  SCR 
(1 1.3.1 1).  Para  ver  claramente  la  diferencia  entre  MCO  y  MCG  considere  el  diagrama  hipotetico 
de  dispersion  de  la  figura  1 1.7. 

En  MCO  (sin  ponderar),  cada  uj  asociada  con  los  puntos  A,  By  C  recibira  el  mismo  peso  al  re¬ 
ducir  la  SCR.  Obviamente,  en  este  caso  la  uj  asociada  al  punto  C  dominant  la  SCR.  Pero  en  MCG 
la  observacion  extrema  C  obtendra  relativamente  un  peso  menor  que  las  otras  dos  observaciones. 
Como  ya  mencionamos,  esta  es  la  estrategia  correcta,  pues  para  estimar  la  funcion  de  regresion 
poblacional  (FRP)  de  una  manera  mas  confiable,  seria  deseable  dar  mas  peso  a  las  observaciones 
agrupadas  cerca  de  su  media  (poblacional)  que  a  las  que  estan  muy  dispersas  a  su  alrededor. 

Como  ( 1 1.3.1 1)  reduce  una  SCR  ponderada,  esto  se  conoce  apropiadamente  como  minimos 
cuadrados  ponderados  (MCP),  y  los  estimadores  as!  obtenidos  que  aparecen  en  (11.3.8)  y 
(11.3.9)  se  conocen  como  estimadores  de  MCP.  Pero  MCP  es  apenas  un  caso  especial  de  la 
tecnica  de  estimacion  mas  general,  MCG.  En  el  contexto  de  la  heteroscedasticidad  los  terminos 
MCP  y  MCG  se  tratan  indistintamente.  En  capltulos  posteriores  veremos  otros  casos  especiales 
de  MCG. 

A  proposito,  observe  que  si  Wi  =  w,  una  constante  para  todas  las  i,  /tj  es  identico  a  y  var 
(/If)  es  identica  a  la  var  (^2)  usual  (es  decir,  homoscedastica)  dada  en  (11.2.3),  lo  cual  no  debe 
sorprender.  (y,Por  que?)  (Consulte  el  ejercicio  11.8.) 
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FIGURA  11.7 

Diagrama  de  dispersion 
hipotetico. 


Y 


11.4  Consecuencias  de  utilizar  MCO  en  presencia 
de  heteroscedasticidad 

Como  vimos,  /if  y  /L  son  estimadores  (lineales)  insesgados:  para  muestreo  repetido,  en  pro- 
medio,  /if  y  seran  iguales  al  verdadero  fc,  es  decir,  ambos  son  estimadores  insesgados.  Pero 
sabemos  que  /if  es  el  eficiente,  es  decir,  tiene  la  menor  varianza.  ,',Quc  sucede  con  los  intervalos 
de  confianza,  las  pruebas  de  hipotesis  y  con  otros  procedimientos  si  continuamos  utilizando  el 
estimador  de  MCO,  ft-p.  Se  distinguen  dos  situaciones. 

Estimacion  por  MCO  con  heteroscedasticidad 

Suponga  que  utilizamos  [h  y  la  formula  de  varianza  dada  en  ( 1 1.2.2),  la  cual  considera  explici- 
tamente  la  heteroscedasticidad.  Con  esta  varianza  y  la  suposicion  de  que  se  conocen  las  a f,  (',es 
posible  establecer  intervalos  de  confianza  y  probar  hipotesis  con  las  pruebas  t  y  F  usuales?  La 
respuesta  suele  ser  no,  pues  puede  demostrarse  que  var  (/If)  <  var  (/I2),5  lo  cual  significa  que  los 
intervalos  de  confianza  basados  en  estos  ultimos  seran  innecesariamente  grandes.  Como  resul- 
tado,  es  probable  que  las  pruebas  ty  F den  resultados  imprecisos  en  el  sentido  de  que  la  var  (/L) 
es  demasiado  grande,  y  lo  que  parece  un  coeficiente  estadisticamente  no  significativo  (pues  el 
valor  t  es  mas  bajo  de  lo  apropiado),  de  hecho  puede  resultar  significativo  si  se  establecen  inter¬ 
valos  de  confianza  correctos  con  base  en  el  procedimiento  de  MCG. 

Estimacion  por  MCO  sin  heteroscedasticidad 

La  situacion  se  torna  muy  grave  si,  ademas  de  /I2,  tambien  se  sigue  utilizando  la  formula  habitual 
de  varianza  (homoscedastica)  dada  en  (1 1.2.3),  aunque  exista  heteroscedasticidad  o  se  sospeche 
su  existencia:  observe  que  este  es  el  caso  mas  probable  de  los  dos  que  aqui  se  analizan,  pues 
al  hacer  una  regresion  estandar  por  MCO  e  ignorar  (o  no  conocer)  la  existencia  de  la  heteros¬ 
cedasticidad  se  producira  una  varianza  de  fa  como  la  dada  en  (1 1 .2.3).  En  primer  lugar,  la  var  (^2) 
dada  en  (11.2.3)  es  un  estimador  sesgado  de  var  (fio)  dada  en  (1 1.2.2),  es  decir,  en  promedio,  esta 


5  Una  prueba  formal  se  encuentra  en  Phoebus  J.  Dhrymes,  Introductory  Econometrics,  Springer-Verlag,  Nueva 
York,  1 978,  pp.  1 1 0-1 1 1 .  A  proposito,  observe  que  la  perdida  de  eficiencia  de  P2  [es  decir,  la  medida  en  que 
excede  var  [^2]  a  var  [/§)]  depende  de  los  valores  muestrales  de  las  variables  X  y  del  valor  de  of. 
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sobreestima  o  subestima  la  ultima  y  en  general  no  se  puede  decir  si  el  sesgo  es  positivo  (sobrees- 
timacion)  o  negativo  (subestimacion),  pues  este  depende  de  la  naturaleza  de  la  relation  entre  o2 
y  los  valores  tornados  por  la  variable  explicativa  X,  como  se  ve  claramente  en  (11.2.2)  (vease  el 
ejercicio  11.9).  El  sesgo  surge  de  que  a2,  el  estimador  conventional  de  a2,  a  saber,  w? /(«  —  2), 
deja  de  ser  un  estimador  insesgado  del  ultimo  en  presencia  de  heteroscedasticidad  (vease  el 
apendice  1 1  A.3).  Como  resultado,  ya  no  es  posible  depender  de  los  intervalos  de  confianza  cal- 
culados  convencionalmente  ni  de  las  pruebas  ty  F tradicionales.6  En  resumen,  si  insistimos  en 
los  procedimientos  de  prueba  usuales  a  pesar  de  la  presencia  de  heteroscedasticidad,  las 
conclusiones  o  inferencias  que  obtengamos  pueden  ser  muy  equivocadas. 

Para  dar  mayor  claridad  a  este  tema,  veamos  un  estudio  Monte  Carlo  de  Davidson  y  MacKin¬ 
non.7  Consideran  el  siguiente  modelo  simple,  que  en  nuestra  notacion  es 

Yt  =  Pi  +  foXi  +  ut  (11.4.1) 

Suponen  que  /h  =  1,  Pi  =  1  y  M;  ~  N{  0,  Xf).  Como  indica  la  ultima  expresion,  suponen  que  la 
varianza  del  error  es  heteroscedastica  y  que  se  relaciona  con  el  valor  de  la  regresora  X  elevado 
a  la  potencia  a.  Si,  por  ejemplo,  a  =  1,  la  varianza  del  error  es  proportional  al  valor  de  X;  si 
a  =  2,  la  varianza  del  error  es  proportional  al  cuadrado  del  valor  de  X,  y  asi  sucesivamente.  En 
la  section  11.6  veremos  la  logica  de  tal  procedimiento.  Basados  en  20  000  repeticiones  y  con 
diversos  valores  para  a,  obtienen  los  errores  estandar  de  los  dos  coeficientes  de  regresion 
con  MCO  [consulte  la  ecuacion  (11.2.3)],  MCO  con  heteroscedasticidad  [ecuacion  (11.2.2)]  y 
MCG  [ecuacion  ( 1 1.3.9)].  Sus  resultados  para  valores  seleccionados  de  a  son: 


Error  estandar  de  /?i  Error  estandar  de 


Valor  de  a 

MCO 

MCOhet 

MCG 

MCO 

MCOhet 

MCG 

0.5 

0.164 

0.134 

0.110 

0.285 

0.277 

0.243 

1.0 

0.142 

0.101 

0.048 

0.246 

0.247 

0.173 

2.0 

0.116 

0.074 

0.0073 

0.200 

0.220 

0.109 

3.0 

0.100 

0.064 

0.0013 

0.173 

0.206 

0.056 

4.0 

0.089 

0.059 

0.0003 

0.154 

0.195 

0.017 

Nota:  MCOhet  significa  MCO  con  heteroscedasticidad. 


La  caracteristica  mas  sobresaliente  de  estos  resultados  es  que  los  MCO,  con  o  sin  correccion  por 
heteroscedasticidad,  sobreestiman  consistentemente  el  verdadero  error  estandar  obtenido  me- 
diante  el  procedimiento  (correcto)  de  MCG,  en  especial  para  valores  grandes  de  a,  con  lo  cual  se 
establece  la  superioridad  de  MCG.  Estos  resultados  tambien  muestran  que  si  no  se  utilizan  MCG 
y  se  depende  de  MCO  — permitiendo  o  no  la  heteroscedasticidad — ,  el  resultado  es  una  mezcla. 
Los  errores  estandar  de  MCO  convencionales  son  muy  grandes  (para  el  intercepto)  o  general- 
mente  muy  bajos  (para  el  coeficiente  de  la  pendiente)  en  relation  con  los  obtenidos  por  MCO 
que  permite  la  heteroscedasticidad.  El  mensaje  es  claro:  ante  la  presencia  de  heteroscedasticidad, 
utilice  MCG.  Sin  embargo,  por  razones  explicadas  mas  adelante  en  el  capitulo,  en  la  practica  no 
siempre  es  facil  aplicar  MCG.  Asimismo,  como  veremos  mas  adelante,  a  menos  que  la  heterosce¬ 
dasticidad  sea  muy  grave,  no  se  abandonarian  los  MCO  en  favor  de  los  MCG  o  de  los  MCP. 

Por  el  analisis  anterior,  es  claro  que  la  heteroscedasticidad  es  un  problema  potencialmente 
grave  y  el  investigador  debe  saber  si  esta  presente  en  una  situation  dada.  Si  detecta  su  presen- 


6  De  (5.3.6)  sabemos  que  el  intervalo  de  confianza  a  1 00(1  —  a)%  para  es  [^2  ±  ta/ 2  ee(/h)l-  Pero,  si 
ee(^2)  no  puede  estimarse  en  forma  insesgada,  ique  confianza  se  puede  teneren  el  intervalo  de  confianza 
calculado  convencionalmente? 

7  Russell  Davidson  y  James  G.  MacKinnon,  Estimation  and  Inference  in  Econometrics,  Oxford  University  Press, 
Nueva  York,  1993,  pp.  549-550. 
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cia,  puede  tomar  acciones  correctivas,  como  una  regresion  de  minimos  cuadrados  ponderados  o 
alguna  otra  tecnica.  Sin  embargo,  antes  de  examinar  los  procedimientos  correctivos,  es  preciso 
averiguar  si  hay  heteroscedasticidad  o  si  es  probable  en  un  caso  dado.  Analizamos  este  tema  en 
la  siguiente  seccion. 

Nota  tecnica 

Aunque  ya  establecimos  que,  en  caso  de  heteroscedasticidad,  son  los  MCG  y  no  los  MCO  los  que 
son  MELI,  existen  ejemplos  en  los  que  los  MCO  pueden  ser  MELI  a  pesar  de  la  heteroscedasti¬ 
cidad.8  No  obstante,  dichos  casos  son  poco  frecuentes  en  la  practica. 


11.5  Deteccion  de  la  heteroscedasticidad 


Como  con  la  multicolinealidad,  para  efectos  practicos  la  pregunta  importante  es  (',c6mo  saber 
que  hay  heteroscedasticidad  en  una  situacion  especifica?  De  nuevo,  como  en  la  multicolineali¬ 
dad,  no  existen  reglas  precisas  y  rapidas  para  detectar  la  heteroscedasticidad,  solo  algunas  reglas 
practicas.  Pero  esta  situacion  es  inevitable  porque  of  solamente  puede  conocerse  si  se  tiene  toda 
la  poblacion  Y,  correspondiente  a  las  X  seleccionadas,  como  la  poblacion  presentada  en  la  tabla 
2.1  o  en  la  tabla  11.1.  Pero  tal  informacion  es  una  excepcion  mas  que  la  regia  en  la  mayorla  de 
las  investigaciones  economicas.  A1  respecto,  el  econometrista  difiere  de  los  cientificos  en  campos 
como  agricultura  y  biologia,  donde  los  investigadores  tienen  gran  parte  del  control  sobre  sus 
temas.  En  los  estudios  de  economla,  es  frecuente  que  solo  haya  un  valor  muestral  Y  correspon¬ 
diente  a  un  valor  particular  de  X.  Por  consiguiente,  no  hay  forma  de  conocer  er(2  a  partir  de  una 
sola  observation  Y.  Asi,  en  la  mayoria  de  las  investigaciones  econometricas,  la  heteroscedastici¬ 
dad  puede  ser  un  asunto  de  intuition,  de  conjeturas  refinadas,  de  un  trabajo  basado  en  experiencia 
empirica  previa  o  de  pura  especulacion. 

Tras  la  advertencia  anterior,  podemos  examinar  algunos  metodos  informales  y  formales  para 
detectar  la  heteroscedasticidad.  Como  revelara  el  siguiente  analisis,  la  mayoria  de  estos  metodos 
se  basan  en  el  examen  de  los  residuos  ii,  de  MCO,  pues  son  estos  los  que  se  observan  y  no  las 
perturbaciones  u,.  Se  espera  que  u,  sean  buenas  estimaciones  de  u„  esperanza  que  se  cumple  si  el 
tamano  de  la  muestra  es  lo  bastante  grande. 

Metodos  informales 

Naturaleza  del  problema 

Con  mucha  frecuencia  la  naturaleza  del  problema  en  consideration  sugiere  la  posibilidad  de  he¬ 
teroscedasticidad.  Por  ejemplo,  a  partir  del  trabajo  pionero  de  Prais  y  Houthakker  sobre  estudios 
de  presupuesto  familiar,  en  el  cual  hallaron  que  la  varianza  residual  correspondiente  a  la  regre¬ 
sion  del  consumo  sobre  el  ingreso  aumentaba  con  el  ingreso,  hoy  en  dia  generalmente  se  supone 
que  en  encuestas  similares  se  pueden  esperar  varianzas  desiguales  entre  las  perturbaciones. 9  De 
hecho,  en  la  informacion  de  corte  transversal  que  comprende  unidades  heterogeneas,  la  hete¬ 
roscedasticidad  puede  ser  la  regia  y  no  la  excepcion.  Asi,  en  el  analisis  de  corte  transversal  que 
relaciona  el  gasto  de  inversion  con  las  ventas,  la  tasa  de  interes,  etc.,  suele  esperarse  la  presencia 
de  heteroscedasticidad  si  se  agrupan  empresas  pequenas,  medianas  y  grandes. 


8  La  razon  reside  en  que  el  teorema  de  Gauss-Markov  proporciona  la  condicion  suficiente  (pero  no  necesa- 
ria)  para  que  los  MCO  sean  eficientes.  La  condicion  suficiente  y  necesaria  para  que  los  MCO  sean  MELI  la 
establece  el  teorema  de  Kruskal.  Pero  este  tema  esta  mas  alia  del  alcance  de  este  libro.  El  autor  esta  en 
deuda  con  Michael  McAleer  por  notar  esto.  Para  mayores  detalles,  vease  Denzil  G.  Fiebig,  Michael  McAleer 
y  Robert  Bartels,  "Properties  of  Ordinary  Least  Squares  Estimators  in  Regression  Models  with  Nonspherical 
Disturbances",  journal  of  Econometrics,  vol.  54,  num.  1-3,  octubre-diciembre  de  1992,  pp.  321-334.  Para  los 
estudiantes  con  inclinaciones  matematicas,  analizo  este  tema  en  mas  detalle  en  el  apendice  C  con  algebra 
matricial. 

9  S.J.  Prais  y  H.S.  Houthakker,  The  Analysis  of  Family  Budgets,  Cambridge  University  Press,  Nueva  York,  1 955. 
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De  hecho,  ya  presentamos  ejemplos  de  lo  anterior.  En  el  capltulo  2  analizamos  la  relacion 
entre  los  salarios  medios  o  promedios  por  hora  en  relacion  con  los  anos  de  escolaridad  en  Estados 
Unidos.  En  este  capltulo  tambien  examinamos  la  relacion  entre  el  gasto  en  alimentos  y  el  gasto 
total  de  55  familias  en  India  (ejercicio  11.16). 

Metodo  grafico 

Si  no  hay  information  a  priori  o  empirica  sobre  la  naturaleza  de  la  heteroscedasticidad,  en  la 
practica  se  puede  llevar  a  cabo  un  analisis  de  regresion  con  el  supuesto  de  que  no  hay  heterosce¬ 
dasticidad  y  luego  hacer  un  examen  post  mortem  de  los  residuos  elevados  al  cuadrado,  uj,  para 
ver  si  exhiben  algun  patron  sistematico.  Aunque  los  uj  no  son  lo  mismo  que  los  uj,  los  primeros 
sirven  como  representantes  de  los  ultimos  sobre  todo  si  el  tarnano  de  la  muestra  es  lo  bastante 
grande. 10  Un  examen  de  los  uj  puede  revelar  patrones  como  los  de  la  figura  11.8. 

En  la  figura  11.8  se  grafican  los  uj  frente  a  los  >„  que  son  los  Y,  estimados  mediante  la  linea 
de  regresion,  con  la  idea  de  averiguar  si  el  valor  medio  estimado  de  Y  esta  relacionado  sistema- 
ticamente  con  el  residuo  al  cuadrado.  En  la  figura  1 1.8a)  se  ve  que  no  hay  un  patron  sistematico 
entre  las  dos  variables,  lo  cual  sugiere  que  tal  vez  no  haya  heteroscedasticidad  en  los  datos.  Sin 
embargo,  las  figuras  11.8b)  a  1  1  .He)  muestran  patrones  definidos.  Por  ejemplo,  la  figura  1 1.8c) 
sugiere  una  relacion  lineal,  mientras  que  las  figuras  1 1.8c/)  y  11. 8e)  indican  una  relacion  cua- 
dratica  entre  uj  y  >,.  Con  tal  conocimiento,  aunque  informal,  es  posible  transformar  los  datos  de 
manera  que,  una  vez  transformados,  no  presenten  heteroscedasticidad.  En  la  section  11.6  exami- 
naremos  transformaciones  de  este  tipo. 

En  lugar  de  graficar  los  uj  frente  a  los  >„  se  pueden  graficar  frente  a  una  de  las  variables  expli- 
cativas,  en  especial  si  el  grafico  de  uj  frente  a  Yj  presenta  un  patron  como  el  de  la  figura  1 1.8a). 
Tal  grafico,  que  aparece  en  la  figura  1 1.9,  puede  revelar  patrones  similares  a  los  de  la  figura  1 1.8. 
(En  el  caso  del  modelo  con  dos  variables,  el  grafico  de  uj  frente  a  los  Y,  equivale  a  graficar  el 


FIGURA  11.8 

Patrones  hipoteticos  de 
los  residuos  estimados  al 
cuadrado. 


10  Respecto  de  la  relacion  entre  tv,  y  u,,  vease  E.  Malinvaud,  Statistical  Methods  of  Econometrics,  North 
Holland,  Amsterdam,  1970,  pp.  88-89. 


378  Parte  Dos  Flexibilizacion  de  los  supuestos  del  modelo  clasico 


FIGURA  11.9 

Diagrama  de  dispersion 
de  los  residuos  estimados 
al  cuadrado  frente  a  X. 


d) 


e) 


primero  frente  a  X„  razon  por  la  cual  la  figura  1 1.9  es  similar  a  la  11.8.  Pero  esta  no  es  la  situacion 
cuando  se  considera  un  modelo  con  dos  o  mas  variables  X;  en  este  caso,  uf  puede  graficarse  frente 
a  cualquier  variable  X  incluida  en  el  modelo.) 

Un  patron  como  el  de  la  figura  11.9c),  por  ejemplo,  sugiere  que  la  varianza  del  termino  de 
perturbacion  se  relaciona  linealmente  con  la  variable  X.  Asi,  si  en  la  regresion  de  ahorro  sobre 
ingreso  se  encuentra  un  patron  como  el  de  la  figura  1 1.9c),  este  sugiere  que  la  varianza  heteros- 
cedastica  puede  ser  proportional  al  valor  de  la  variable  ingreso.  Saber  esto  puede  contribuir  a 
transformar  los  datos  de  manera  que,  en  la  regresion  sobre  los  datos  transformados,  la  varianza 
de  las  perturbaciones  sea  homoscedastica.  Trataremos  este  tema  en  la  siguiente  seccion. 


Metodos  formales 

Prueba  de  Park 1 1 

Park  formaliza  el  metodo  grafico  con  la  sugerencia  de  que  cr2  es  algun  tipo  de  funcion  de  la  va¬ 
riable  explicativa  Xt.  La  forma  funcional  fue 

cr2  =  er2xf  evi 


o 


In  cr2  =  In  o2  +  p  In  Xj  +  v,-  (11.5.1) 

donde  v,  es  el  termino  de  perturbacion  estocastico. 


11  R.E.  Park,  "Estimation  with  Heteroscedastic  Error  Terms",  Econometrica,  vol.  34,  num.  4,  octubre  de  1966, 
p.  888.  La  prueba  de  Park  es  un  caso  especial  de  la  prueba  general  propuesta  por  A.  C.  Harvey  en  "Estima¬ 
ting  Regression  Models  with  Multiplicative  Heteroscedasticity",  Econometrica,  vol.  44,  num.  3,  1 976, 
pp.  461  -465. 
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Como  a2  por  lo  general  no  se  conoce.  Park  sugiere  utilizar  uj  como  aproximacion  y  correr  la 
siguiente  regresion: 

In  uj  =  In  ct2  +  (i  In  Xt  +  v,  mi-~ 

=  a  +  0  In  Xt  +  Vi 

Si  fi  resulta  estadisticamente  significativo,  esto  sugerira  heteroscedasticidad  en  los  datos.  Si  re- 
sulta  no  significativo,  podemos  aceptar  el  supuesto  de  homoscedasticidad.  La  prueba  de  Park  es, 
por  tanto,  un  procedimiento  de  dos  etapas.  En  la  primera  se  efectua  la  regresion  MCO  ignorando 
el  interrogante  de  la  heteroscedasticidad.  Se  obtiene  u,  de  esta  regresion  y  luego,  en  la  segunda 
etapa,  se  efectua  la  regresion  (1 1.5.2). 

Aunque  empiricamente  la  prueba  de  Park  es  atractiva,  presenta  algunos  problemas.  Goldfeld 
y  Quandt  argumentan  que  el  termino  de  error  v,  que  entra  en  (1 1.5.2)  puede  no  satisfacer  los  su- 
puestos  de  MCO  y  en  si  mismo  ser  heteroscedastico.12  No  obstante,  es  posible  utilizar  la  prueba 
de  Park  como  metodo  estrictamente  exploratorio. 

EJEMPLO  11.1 

Relation  entre  sala- 
rios  y  productividad 

Para  ilustrar  el  enfoque  de  Park,  con  la  informacion  de  la  tabla  1 1 .1  efectuamos  la  siguiente 
regresion: 

Yj  =  /8l  +  f$2  X;  +  Ui 

donde  Y  =  salario  promedio  en  miles  de  dolares,  X  =  productividad  promedio  en  miles  de  do- 
lares  e  /  =  /-esimo  de  la  planta  laboral  del  establecimiento.  Los  resultados  de  la  regresion  fueron 
los  siguientes: 

?:=  1992.3452  +  0.2329X, 

ee  =  (936.4791)  (0.0998)  (11.5.3) 

t=  (2.1275)  (2.333)  R2  =  0.4375 

Los  resultados  revelan  que  el  coeficiente  de  pendiente  estimado  es  significativo  en  el  nivel  de 
5%  con  base  en  una  prueba  tde  una  cola.  La  ecuacion  muestra  que,  a  medida  que  aumenta  la 
productividad  laboral,  por  ejemplo,  en  un  dolar,  el  salario  aumenta,  en  promedio,  alrededor  de 
23  centavos  de  dolar. 

En  los  residuos  obtenidos  de  la  regresion  (1 1 .5.3)  se  hizo  la  regresion  sobre  X,  como  lo  su¬ 
giere  la  ecuacion  (1 1 .5.2),  con  los  siguientes  resultados: 

\n~df  =  35.817  -  2.8099  In  X, 

ee  =  (38.31 9)  (4.216)  (11.5.4) 

t=  (0.934)  (-0.667)  R2  =  0.0595 

Obvio,  no  hay  una  relacion  estadisticamente  significativa  entre  ambas  variables.  Segun  la  prueba 
de  Park,  se  puede  concluir  que  no  hay  heteroscedasticidad  en  la  varianza  del  error.13 

Prueba  de  Glejser 14 

La  prueba  de  Glejser  en  esencia  es  similar  a  la  de  Park.  Despues  de  obtener  los  residuos  u,  de  la 
regresion  MCO,  Glejser  sugiere  una  regresion  sobre  los  valores  absolutos  de  u,  sobre  la  variable 

12  Stephen  M.  Goldfeld  y  Richard  E.  Quandt,  Nonlinear  Methods  in  Econometrics,  North  Holland,  Amsterdam, 
1972,  pp.  93-94. 

13  La  forma  funcional  particular  seleccionada  por  Park  es  solo  una  sugerencia.  Una  forma  funcional  diferente 
revela  relaciones  significativas.  Por  ejemplo,  se  puede  utilizar  uj  en  lugar  de  In  uj  como  variable  depen- 
diente. 

14  H.  Glejser,  "A  New  Test  for  Heteroscedasticity",  Journal  of  the  American  Statistical  Association,  vol.  64, 

1969,  pp.  316-323. 
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X  que  se  cree  muy  asociada  con  a}.  En  sus  experimentos,  Glejser  utilizo  las  siguientes  formas 
funcionales: 


|w;l  =  Pi  +  PiXj  +  vt 


\Ui\  —  Pi  +  PiVXj  +  Vj 

1 

|m;  I  —  Pi  +  Pi~rr  +  vt 


1 

\ui\  —  Pi  +  Pi  +  V/ 


\Ui\  —  y/Pl  +  PlXj  +  Vj 


\Uj\  —  yj  P\  +  PlX}  +  vi 

donde  v,  es  el  termino  de  error. 

De  nuevo,  como  un  asunto  emplrico  o  practico,  se  puede  utilizar  el  metodo  de  Glejser.  Sin 
embargo,  Goldfeld  y  Quandt  senalan  que  el  termino  de  error  v,-  tiene  algunos  problemas,  pues 
su  valor  esperado  es  diferente  de  cero,  esta  serialmente  correlacionado  (vease  el  capitulo  12)  e 
ironicamente  es  heteroscedastico.15  Otra  dificultad  del  metodo  Glejser  es  que  los  modelos  como 


I M;  I  —  \fP\  +  PiXj  +  Vj 


y 

I  M/|  =  yj ' P\  +  P2Xj  +  Vj 

no  son  lineales  en  los  parametros  y,  por  consiguiente,  no  pueden  estimarse  mediante  el  procedi- 
miento  de  MCO  habitual. 

Glejser  descubrio  que  para  muestras  grandes,  los  cuatro  primeros  modelos  suelen  dar  resul- 
tados  satisfactorios  en  la  deteccion  de  la  heteroscedasticidad.  En  la  practica,  por  consiguiente, 
la  tecnica  de  Glejser  es  util  para  muestras  grandes,  y  en  muestras  pequenas  sirve  estrictamente 
como  herramienta  cualitativa  para  obtener  una  nocion  sobre  la  heteroscedasticidad. 


EJEMPLO  11.2 

Relation  entre  el 
salario  y  la  produc- 
tividad:  prueba  de 
Glejser 


Aun  con  el  ejemplo  11.1,  se  hizo  la  regresion  del  valor  absoluto  de  los  residuos  obtenidos  de  la 
regresion  (1 1 .5.3)  sobre  la  productividad  promedio  (X),  lo  cual  dio  los  siguientes  resultados: 

\d\  =  407.2783  -  0.0203X, 

ee  =  (633.1621)  (0.0675)  r2  =  0.0127e  (11.5.5) 

t=  (0.6432)  (-0.3012) 


Como  se  aprecia  de  esta  regresion,  no  hay  relacion  entre  el  valor  absoluto  de  los  residuos  y  la 
regresora,  la  productividad  promedio.  Lo  anterior  refuerza  la  conclusion  basada  en  la  prueba 
de  Park. 


Prueba  de  correlation  de  orden  de  Spearman 

En  el  ejercicio  3.8  definimos  el  coeficiente  de  correlacion  de  orden  de  Spearman  como 


rs  —  1  -  6 


'  Zdf  ~ 

n(n2  —  1) 


(11.5.6) 


15Veanse  detalles  en  Goldfeld  y  Quandt,  op.  cit.,  capitulo  3. 
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donde  =  la  diferencia  en  las  posiciones  o  lugares  asignados  al  z'-esimo  individuo  o  fenomeno 
respecto  de  dos  caracterlsticas  y  n  =  numero  de  individuos  o  fenomenos  ordenados.  Con  el 
coeficiente  de  correlacion  de  orden  anterior  se  detecta  heteroscedasticidad  de  la  siguiente  ma- 
nera:  Suponga  que  Yt  —  /30  +  fi\Xt  + 

Paso  1.  Ajuste  la  regresion  a  los  datos  sobre  Yy  X,y  obtenga  los  residuos  u,. 

Paso  2.  Ignore  el  signo  de  es  decir,  tome  su  valor  absoluto  |m,|,  y  ordene  los  valores  |z5,| 
y  Xi  (o  YD  de  acuerdo  con  un  orden  ascendente  o  descendente,  y  calcule  el  coeficiente  de 
correlacion  de  orden  de  Spearman  dado  antes. 

Paso  3.  Si  supone  que  el  coeficiente  poblacional  de  correlacion  de  orden  ps  es  cero  y  n  >  8, 
la  significance  del  rs  muestral  se  prueba  mediante  la  prueba  t  de  la  siguiente  manera:16 


rsJn  -  2 
V1  -  rs 


(11.5.7) 


con  gl  =  n  —  2. 

Si  el  valor  t  calculado  excede  el  valor  t  critico,  podemos  aceptar  la  hipotesis  de  heteroscedas¬ 
ticidad;  de  lo  contrario,  podemos  rechazarla.  Si  el  modelo  de  regresion  considera  mas  de  una 
variable  X,  rs  se  calcula  entre  zz,  y  cada  variable  X por  separado,  y  la  significance  estadistica  se 
somete  a  la  prueba  t  dada  en  la  ecuacion  (1 1.5.7). 


EJEMPLO  113  Para  ilustrar  la  prueba  de  correlacion  de  orden,  considere  los  datos  de  la  tabla  1 1 .2,  que  corres- 

Ilustracidn  de  la  ponden  al  rendimiento  anual  promedio  ( E ,  %)  y  la  desviacion  estandar  del  rendimiento  anual 

,  ,  ,  (rr/,%)  de  1 0  fondos  de  inversion. 

prueba  de  correla¬ 
cion  de  orden 


TABLA  11.2  Prueba  de  correlacion  de  orden  para  heteroscedasticidad 


Ei, 

ff;, 

d, 

rendimiento 

desviacion 

diferencia 

promedio 

estandar  del 

M*, 

Orde- 

Orde- 

entre  las 

Nombre  del  fondo 

anual, 

rendimiento 

residuos 

nacion 

nacion 

dos  orde- 

mutualista 

% 

anual,  % 

|(£;  -  f/)| 

de  |u,| 

de  ffj 

naciones 

d2 

Boston  Fund 

12.4 

12.1 

11.37 

1.03 

9 

4 

5 

25 

Delaware  Fund 

14.4 

21.4 

15.64 

1.24 

10 

9 

1 

1 

Equity  Fund 

14.6 

18.7 

14.40 

0.20 

4 

7 

-3 

9 

Fundamental  Investors 

16.0 

21.7 

15.78 

0.22 

5 

10 

-5 

25 

Investors  Mutual 

11.3 

12.5 

11.56 

0.26 

6 

5 

1 

1 

Loomis-Sales  Mutual  Fund 

10.0 

10.4 

10.59 

0.59 

7 

2 

5 

25 

Massachusetts  Investors  Trust 

16.2 

20.8 

15.37 

0.83 

8 

8 

0 

0 

New  England  Fund 

10.4 

10.2 

10.50 

0.10 

3 

1 

2 

4 

Putnam  Fund  of  Boston 

13.1 

16.0 

13.16 

0.06 

2 

6 

-4 

16 

Wellington  Fund 

11.3 

12.0 

11.33 

0.03 

1 

3 

-2 

4 

Total 

0 

110 

^  Obtenido  de  la  regresion:  Ei  =  5.8194  +  0.4590  er,. 

1  Valor  absoluto  de  los  residuales. 

No  fa:  La  ordenacion  de  valores  es  ascendente. 

( continua ) 


16  Vease  G.  Udny  Yule  y  M.G.  Kendall,  An  Introduction  to  the  Theory  of  Statistics,  Charles  Griffin  &  Company, 
Londres,  1953,  p.  455. 
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EJEMPLO  11.3 

(i continuation ) 


La  Ifnea  del  mercado  de  capitales  (LMC)  de  la  teorfa  de  portafolios  postula  una  relacion  lineal 
entre  el  rendimiento  esperado  (£/)  y  el  riesgo  (como  se  mide  mediante  la  desviacion  estandar,  a) 
de  un  portafolio,  de  la  siguiente  manera: 

Ei  =  pi  +  Pi^i 


Con  los  datos  de  la  tabla  11.2  se  estimo  el  modelo  anterior,  a  partir  del  cual  se  calcularon  los 
residuos.  Como  los  datos  se  relacionan  con  1 0  fondos  mutualistas  de  distintos  tamanos  y  metas 
de  inversion,  se  podrfa  esperar  a  priori  que  hubiera  heteroscedasticidad.  Para  probar  esta  hipo- 
tesis,  aplicamos  la  prueba  de  correlacion  de  orden.  Los  calculos  necesarios  se  proporcionan  en 
la  tabla  1 1 .2. 

Con  la  formula  (1 1 .5.6)  obtenemos 


r%  1  6 1 0(1 00  -  1 ) 
=  0.3333 


(11.5.8) 


Con  la  prueba  t  dada  en  (1 1 .5.7)  obtenemos 

t=  (03333X78) 

71  -  o.ino 

=  0.9998 


(11.5.9) 


Para  8  gl,  este  valor  t  no  es  significativo  ni  siquiera  en  el  nivel  de  significancia  de  1 0%;  el  valor  p 
es  0.1  7.  Por  tanto,  no  hay  evidencia  de  una  relacion  sistematica  entre  la  variable  explicativa  y  los 
valores  absolutos  de  los  residuos,  lo  cual  sugerirfa  que  no  hay  heteroscedasticidad. 


Prueba  de  Goldfeld-Quandt 17 

Este  popular  metodo  es  aplicable  si  se  supone  que  la  varianza  heteroscedastica,  er,2,  esta  relacio- 
nada  positivamente  con  una  de  las  variables  explicativas  en  el  modelo  de  regresion.  Por  simplici- 
dad,  considere  el  modelo  usual  con  dos  variables: 

Yi  —  P\  +  PiXj  +  Uj 

Suponga  que  a}  esta  relacionado  positivamente  con  X),  en  la  forma 

of  —  er2X2  (11.5.10) 

donde  a2  es  una  constante.18 

El  supuesto  (1 1.5.10)  postula  que  cr2  es  proporcional  al  cuadrado  de  la  variable  X  En  su  estu- 
dio  de  presupuestos  familiares,  Prais  y  Houthakker  encontraron  muy  util  ese  supuesto.  (Vease  la 
seccion  11.5,  metodos  informales.) 

Si  (1 1.5.10)  es  la  relacion  apropiada,  significaria  que  a2  seria  mayor  mientras  mayores  fueran 
los  valores  de  X}.  Si  este  resulta  ser  el  caso,  es  muy  probable  que  haya  heteroscedasticidad  en  el 
modelo.  Para  probar  esto  explicitamente,  Goldfeld  y  Quandt  sugieren  los  siguientes  pasos: 

Paso  1.  Ordene  las  observaciones  de  acuerdo  con  los  valores  de  X),  a  partir  del  valor  mas 
bajo  deX. 

Paso  2.  Omita  las  c  observaciones  centrales,  donde  c  se  especifico  a  priori,  y  divida  las  ob¬ 
servaciones  restantes  ( n  —  c)  en  dos  grupos,  cada  uno  de  ( n  —  c)/2  observaciones. 

Paso  3.  Ajuste  regresiones  MCO  separadas  a  las  primeras  (n  —  c)/2  observaciones  y  a  las 
ultimas  ( n  —  c)/2  observaciones,  y  obtenga  las  respectivas  sumas  de  cuadrados  residuales 


17  Goldfeld  y  Quandt,  op.  cit.,  capftulo  3. 

18  Este  es  solo  un  supuesto  plausible.  En  realidad  lo  que  se  requiere  es  que  af  este  monotonicamente  relacio- 
nada  con  X,. 
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SCRi  y  SCR2;  SCRi  representa  la  SCR  de  la  regresion  correspondiente  a  los  valores  mas 
bajos  de  X,  (el  grupo  de  varianza  pequeiia),  y  SCR2,  a  los  valores  mas  grandes  de  Xt  (el 
grupo  de  varianza  grande).  Cada  SCR  tiene 


(«  -  c) 


—  k 


2k 


gl 


donde  k  es  el  numero  de  parametros  que  deben  estimarse,  inclusive  el  intercepto.  QPor  que?) 
Sin  duda,  para  el  caso  de  dos  variables,  k  es  2. 

Paso  4.  Calcule  la  razon 


SCR2/gl 

SCRi/gl 


(11.5.11) 


Si  supusimos  que  las  iq  estdn  normalmente  distribuidas  (lo  cual  suele  hacerse),  y  si  el  su- 
puesto  de  homoscedasticidad  es  vcilido,  entonces  se  demuestra  que  X  de  (11.5.10)  sigue  la 
distribucion  F  con  un  numero  de  gl  en  el  numerador  y  uno  en  el  denominador  iguales  a 
(n  —  c  —  2k) /2. 


Si  en  una  aplicacion  X  (—  F)  calculada  es  superior  al  F  critico  en  el  nivel  de  significance  se- 
leccionado,  podemos  rechazar  la  hipotesis  de  homoscedasticidad,  es  decir,  podemos  afirmar  que 
la  heteroscedasticidad  es  muy  probable. 

Antes  de  ilustrar  la  prueba,  conviene  explicar  la  omision  de  las  observaciones  centrales  c. 
Estas  observaciones  se  omiten  para  agudizar  o  acentuar  la  diferencia  entre  el  grupo  de  varianza 
pequeiia  (es  decir,  SCRi)  y  el  grupo  de  varianza  grande  (es  decir,  SCR2).  Pero  la  capacidad  de 
la  prueba  Goldfeld-Quandt  para  lograrlo  depende  de  la  forma  de  seleccionar  c.19  Para  el  modelo 
con  dos  variables,  los  experimentos  Monte  Carlo  realizados  por  Goldfeld  y  Quandt  sugieren  que 
c  sea  alrededor  de  8  si  el  tamano  de  la  muestra  es  alrededor  de  30,  y  alrededor  de  16  si  el  tarnano 
de  la  muestra  es  alrededor  de  60.  Sin  embargo,  Judge  et  al.,  encontraron  satisfactorios  en  la  prac- 
tica  los  niveles  de  c  —  4  si  n  =  30  y  c  —  10  si  n  es  alrededor  de  60. 20 

Antes  de  proseguir,  cabe  notar  que,  en  caso  de  que  haya  mas  de  una  variable  X en  el  modelo,  el 
ordenamiento  de  las  observaciones,  que  es  el  primer  paso  en  la  prueba,  puede  hacerse  de  acuerdo 
con  cualquiera  de  ellas.  Por  tanto,  en  el  modelo:  Y,  —  fi\  +  fcXu  +  PiX3i  +  P4X4,  +  ut  se  pueden 
ordenar  los  datos  de  acuerdo  con  cualquiera  de  estas  X.  Si,  a  priori,  no  hay  seguridad  sobre  cual 
variable  X  es  la  adecuada,  realice  la  prueba  sobre  cada  variable  X  o  aplique  la  prueba  de  Park,  por 
turnos,  sobre  cada  X. 


EJEMPLO  11.4 

La  prueba  de 
Goldfeld-Quandt 


Para  ilustrar  la  prueba  de  Goldfeld-Quandt  presentamos  en  la  tabla  11.3  informacion  sobre  el 
gasto  de  consumo  en  relacion  con  el  ingreso  de  una  muestra  transversal  de  30  familias.  Suponga 
que  postulamos  que  el  gasto  de  consumo  esta  relacionado  linealmente  con  el  ingreso  pero  que 
hay  heteroscedasticidad  en  los  datos.  Postulamos  ademas  que  la  naturaleza  de  la  heterosce¬ 
dasticidad  es  como  la  de  (11.5.10).  En  la  tabla  11.3  presentamos  tambien  el  reordenamiento 
necesario  de  los  datos  para  aplicar  la  prueba. 

Al  eliminar  las  4  observaciones  del  medio,  las  regresiones  de  MCO  basadas  en  las  primeras  1  3 
observaciones  y  en  las  ultimas  1  3,  y  sus  sumas  de  cuadrados  residuales  asociadas  se  presentan  a 
continuacion  (los  errores  estandar  se  indican  entre  parentesis). 

( continua ) 


19Tecnicamente,  la  potencia  de  la  prueba  depende  de  la  forma  de  seleccionar  c.  En  estadfstica,  la  potencia 
de  una  prueba  se  mide  por  la  probabilidad  de  rechazar  la  hipotesis  nula  cuando  esta  es  falsa  [es  decir, 

1  —  Prob(error  tipo  II)].  Aqul  la  hipotesis  nula  es  que  las  varianzas  de  los  dos  grupos  son  las  mismas,  es  decir, 
que  hay  homoscedasticidad.  Para  mayor  analisis,  vease  M.  M.  AN  y  C.  Giaccotto,  "A  Study  of  Several  New 
and  Existing  Tests  for  Heteroscedasticity  in  the  General  Linear  Model",  journal  of  Econometrics,  vol.  26,  1 984, 
pp.  355-373. 

20  George  G.  Judge,  R.  Carter  Hill,  William  E.  Griffiths,  Helmut  Liitkepohl  y  Tsoung-Chao  Lee,  Introduction  to 
the  Theory  and  Practice  of  Econometrics,  John  Wiley  &  Sons,  Nueva  York,  1 982,  p.  422. 
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EJEMPLO  11.4 

TAB  LA  11.3  Datos  hipoteticos  sobre  el  gasto  de  consumo  F($)  y  el  ingreso  A"(S)  para  ilustrar 

( continuation ) 

la  prueba  de  Goldfeld-Quandt 

Datos  ordenados  de  acuerdo 

con  los  valores  X 

Y 

X 

Y 

X 

55 

80 

55 

80 

65 

100 

70 

85 

70 

85 

75 

90 

80 

110 

65 

100 

79 

120 

74 

105 

84 

115 

80 

110 

98 

130 

84 

115 

95 

140 

79 

120 

90 

125 

90 

125 

75 

90 

98 

130 

74 

105 

95 

140 

110 

160 

108 

145 

113 

150 

113 

150 

125 

165 

110 

160  ] 

108 

145 

125 

165 

4  observaciones 

115 

180 

115 

180 

del  medio 

140 

225 

130 

185  J 

120 

200 

135 

190 

145 

240 

120 

200 

130 

185 

140 

205 

152 

220 

144 

210 

144 

210 

152 

220 

175 

245 

140 

225 

180 

260 

137 

230 

135 

190 

145 

240 

140 

205 

175 

245 

178 

265 

189 

250 

191 

270 

180 

260 

137 

230 

178 

265 

189 

250 

191 

270 

Regresion  basada  en  las  primeras 

1  3  observaciones: 

Y, 

=  3.4094  +  0.6968 X, 

(8.7049)  (0.0744)  r2 

=  0.8887  SCRt 

=  377.17  gl  =  1 1 

Regresion  basada  en  las  ultimas  1  3  observaciones: 

Yi  =  -  28.0272  +  0.7941  X, 

(30.6421)  (0.1319) 

r2  =  0.7681  SCR2  =  1  536.8  gl  =  11 

De  estos  resultados  obtenemos 

SCR2/gl  1  536.8/11 

A  -  SCRn  /gl  “  377.17/11 

A  =  4.07 

El  valor  Fcntico  para  11  gl  en  el  numerador  y  11  gl  en 

el  denominador  en 

el  nivel  de  5%  es 

2.82. 

Como  el  valor  F(=  A)  estimado  excede  al  valor  crftico,  podemos  concluir  que  hay  heteros- 

cedasticidad  en  la  varianza  del  error. 

Sin  embargo,  si  el 

nivel  de  significancia 

se  fija  en  1  %,  no 

podemos  rechazar  el  supuesto  de  homoscedasticidad.  (£Por  que?)  Observe  que  el  valor  p  de  la 

A  observada  es  0.014. 
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Prueba  B reuse h- Pagan  -  Godfrey  2 1 

El  exito  de  la  prueba  de  Goldfeld-Quandt  depende  no  solo  del  valor  de  c  (el  numero  de  observa- 
ciones  centrales  que  se  van  a  omitir),  sino  tambien  de  la  identification  de  la  variable  X  correcta 
que  servira  de  referenda  para  ordenar  las  observaciones.  Esta  limitation  de  la  prueba  se  evita  si 
consideramos  la  prueba  Breusch-Pagan-Godfrey  (BPG). 

Para  ilustrar  esta  prueba,  considere  el  modelo  de  regresion  lineal  con  k  variables 

Yi  =  Pi  +  p2X2i  + - b  pkXki  +u,  (11.5.12) 

Suponga  que  la  varianza  del  error  of  se  describe  como 

of  —  f(a i  +a2Z2i  H - f  amZmi)  (11.5.13) 

es  decir,  of  es  algun  tipo  de  funcion  de  las  variables  Z  no  estocasticas;  alguna  de  las  X  o  todas 
ellas  pueden  servir  como  Z.  Especificamente,  suponga  que 

of  —  a\  +  ot2Z2i  +  ■  •  ■  +  amZmi  (1 1 .5.14) 

es  decir,  of  es  una  funcion  lineal  de  las  Z.  Si  a2  —  —  ■  ■  ■  —  am  —  0,  of  —  cifi,  que  es  una  cons¬ 

tante.  Por  consiguiente,  para  probar  si  of  es  homoscedastica,  se  puede  probar  la  hipotesis  de  que 
a2  —  ot 3  =  ■  ■  ■  =  am  —  0.  Esta  es  la  idea  basica  de  la  prueba  Breusch-Pagan.  El  procedimiento  es 
el  siguiente. 

Paso  1.  Estime  (1 1.5.12)  mediante  MCO  y  obtenga  los residuos  u\,  u2, un. 

Paso  2.  Obtenga  o2  —  Yf  u2/n .  Recuerde,  del  capitulo  4,  que  este  es  el  estimador  de 
maxima  verosimilitud  (MV)  de  o2.  \Nota:  El  estimador  de  MCO  es  Y  wf  /[«  —  A-].] 

Paso  3.  Construya  las  variables  definidas  como 

Pi  =ui/o 

que  es  simplemente  cada  residuo  elevado  al  cuadrado  dividido  entre  o2. 

Paso  4.  Haga  la  regresion  de  los  p,  asi  construidos  sobre  las  Z  como 

Pi  —  a\  +  a2Z2i  4 - b  ocm Zm ,  +  v,  (11.5.15) 

donde  v,  es  el  termino  de  residuo  para  esta  regresion. 

Paso  5.  Obtenga  la  SCE  (suma  de  cuadrados  explicada)  de  ( 1 1.5.15)  y  defina 

©  =  ^(SCE)  (11.5.16) 

Si  suponemos  que  los  m,  estan  normalmente  distribuidos,  se  demuestra  que  si  hay  homosce- 
dasticidad,  y  si  el  tamano  n  de  la  muestra  aumenta  indefinidamente,  entonces 

®  ~  Xm-l  (11.5.17) 

asm 

es  decir,  ©  sigue  una  distribucion  ji  cuadrada  con  (m  —  1)  grados  de  libertad.  ( Nota :  asin 
significa  asintoticamente.) 


21  T.  Breusch  y  A.  Fagan,  "A  Simple  Test  for  Heteroscedasticity  and  Random  Coefficient  Variation",  Econo- 
metrica,  vol.  47,  1979,  pp.  1287-1294.  Vease  tambien  L.  Godfrey,  "Testing  for  Multiplicative  Heteroscedas¬ 
ticity",  /ournal  of  Econometrics,  vol.  8,  1 978,  pp.  227-236.  Debido  a  la  similitud,  estas  pruebas  se  conocen 
como  pruebas  de  heteroscedasticidad  Breusch-Pagan-Godfrey. 
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Por  consiguiente,  si  en  una  aplicacion  el  0  ( =  y2)  calculado  excede  al  valor  crltico  y2  en 
el  nivel  de  significancia  seleccionado,  se  rechaza  la  hipotesis  de  homoscedasticidad;  de  lo 
contrario,  no  se  rechaza. 

El  lector  puede  preguntar  por  que  la  prueba  BPG  elige  \  SCE  como  estadlstico  de  prueba.  El 
razonamiento  es  un  poco  complicado  y  se  deja  para  consultar  en  las  referencias.22 


EJEMPLO  11.5 

La  prueba  Breusch- 

Pagan-Godfrey 

(BPG) 


A  manera  de  ejemplo,  reconsidere  la  informacion  (tabla  11.3)  para  ilustrar  la  prueba  de  he- 
teroscedasticidad  de  Goldfeld-Quandt.  Al  efectuar  la  regresion  de  Y  sobre  X,  obtenemos  lo 
siguiente: 

Paso  1. 

Yi  =  9.2903  +  0.6378X, 

ee  =  (5.231 4)  (0.0286)  SCR  =  2  361.153  R2  =  0.9466  (11.5.18) 


Paso  2. 

a2  =  J2Qf/30  =  2  361.153/30=  78.7051 

Paso  3.  Divida  los  residuos  u,  obtenidos  de  la  regresion  (1 1 .5.18)  entre  78.7051  para  cons- 
truir  la  variable  p,-. 

Paso  4.  Si  supone  que  las  p,  estan  relacionadas  linealmente  con  X;  (=  Zj),  como  lo  establece 
(1 1 .5.14),  obtenemos  la  regresion 

Pi  =  -0.7426  +  0.01 01 X, 

ee  =  (0.7529)  (0.0041)  SCE  =  10.4280  K2  =  0.18  (11.5.19) 


Paso  5. 


0=  l(SCE)  =  5.2140  (11.5.20) 

Con  los  supuestos  de  la  prueba  BPC,  ©  en  (11.5.20)  sigue  asintoticamente  la  distribucion  ji 
cuadrada  con  1  gl.  [Nota:  solo  hay  una  regresora  en  (1 1 .5.1 9).]  Ahora,  de  la  tabla  ji  cuadrada 
vemos  que,  para  1  gl,  el  valor  critico  de  ji  cuadrada  en  5%  es  3.8414,  y  el  valor  y2  crftico  en 
1  %  es  6.6349.  Por  tanto,  el  valor  observado  ji  cuadrada  de  5.21 40  es  significativo  en  el  nivel  de 
significancia  de  5%  pero  no  en  el  nivel  de  1  %.  Por  consiguiente,  llegamos  a  la  misma  conclusion 
obtenida  mediante  la  prueba  Goldfeld-Quandt.  Pero  tenga  en  mente  que,  en  estricto  sentido, 
la  prueba  BPG  es  asintotica  o  de  muestras  grandes,  y  en  el  ejemplo  presente,  la  muestra  de  30 
observaciones  puede  no  ser  una  muestra  grande.  Debe  senalarse  tambien  que,  en  muestras 
pequehas,  la  prueba  es  sensible  al  supuesto  de  que  las  perturbaciones  u,  estan  normalmente  dis- 
tribuidas.  Desde  luego,  podemos  probar  el  supuesto  de  normalidad  con  las  pruebas  analizadas 
en  el  capftulo  5. 23 


Prueba  general  de  heteroscedasticidad  de  White 

A  diferencia  de  la  prueba  de  Goldfeld-Quandt,  que  requiere  reordenar  las  observaciones  respecto 
de  la  variable  X  que  supuestamente  ocasiona  la  heteroscedasticidad,  o  de  la  prueba  BGP,  sensible 
al  supuesto  de  normalidad,  la  prueba  general  de  heteroscedasticidad  propuesta  por  White  no  se 


22  Vease  Adrian  C.  Darnell,  A  Dictionary  of  Econometrics,  Edward  Elgar,  Cheltenham,  Reino  Unido,  1994, 
pp.  178-179. 

23  Al  respecto,  vease  R.  Koenker,  "A  Note  on  Studentizing  a  Test  for  Heteroscedasticity",  journal  of  Econo¬ 
metrics,  vol.  1 7,  1 981 ,  pp.  1 1 80-1 200. 
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apoya  en  el  supuesto  de  normalidad  y  es  facil  aplicarla.24  Como  ilustracion  de  la  idea  basica, 
considere  el  siguiente  modelo  de  regresion  con  tres  variables  (la  generalization  al  modelo  con  k 
variables  es  sencilla): 


Yi  =  A  +  p2X2l  +  p3X3i  +  Ui  (1 1 .5.21 ) 

Para  realizar  la  prueba  de  White  se  procede  de  la  siguiente  forma: 

Paso  1.  Dada  la  informacion,  estime  ( 1 1.5.21)  y  obtenga  los  residuos  m,. 

Paso  2.  Efectue  la  siguiente  regresion  ( auxiliary. 

uf  =  oil  +  a2X2i  +  a3X3i  +  0:4X2,  +  0:5X3,  +  a^X2jX3i  +  v,- 

(11.5.22)25 

Es  decir,  con  el  cuadrado  de  los  residuos  de  la  regresion  original  se  hace  la  regresion 
sobre  las  variables  o  regresoras  X  originales,  sobre  sus  valores  al  cuadrado  y  sobre  el  (los) 
producto(s)  cruzado(s)  de  las  regresoras.  Tambien  pueden  introducirse  potencias  mas  altas 
de  las  regresoras.  Observe  que  hay  un  termino  constante  en  esta  ecuacion,  aunque  la  regre¬ 
sion  original  puede  o  no  contenerlo.  Obtenga  R2  de  esta  regresion  (auxiliar). 

Paso  3.  Segun  la  hipotesis  nula  de  que  no  hay  heteroscedasticidad,  puede  demostrarse  que 
el  tamano  de  la  muestra  in)  multiplicado  por  R2  obtenido  de  la  regresion  auxiliar  asintotica- 
mente  sigue  la  distribution  ji  cuadrada  con  gl  igual  al  numero  de  regresoras  (sin  el  termino 
constante)  en  la  regresion  auxiliar.  Es  decir, 


n-R2~x  gi  (11.5.23) 

donde  los  gl  son  iguales  a  los  definidos  antes.  En  el  ejemplo,  hay  5  gl  porque  hay  5  regreso¬ 
ras  en  la  regresion  auxiliar. 

Paso  4.  Si  el  valor  ji  cuadrada  obtenido  en  (1 1.5.23)  excede  al  valor  ji  cuadrada  critico  en  el 
nivel  de  significance  seleccionado,  la  conclusion  es  que  hay  heteroscedasticidad.  Si  este  no 
excede  el  valor  ji  cuadrada  critico,  no  hay  heteroscedasticidad,  lo  cual  quiere  decir  que  en  la 
regresion  auxiliar  (1 1.5.22),  a2  —  a3  —  0:4  =  a5  =  a6  =  0  (vease  la  nota  25). 


EJEMPLO  11.6 

Prueba  de  heteros¬ 
cedasticidad  de 
White 


Con  informacion  de  corte  transversal  de  41  paises,  Stephen  Lewis  estimo  el  siguiente  modelo 
de  regresion:26 

In  Yj  =  ySn  +  p2  In  X2j  +  p3  In  X3i  +  u-,  (1 1 .5.24) 

donde  Y  =  razon  entre  impuestos  arancelarios  (impuestos  sobre  importaciones  y  exportaciones) 
y  ganancias  totales  del  gobierno,  X2  =  razon  entre  la  suma  de  exportaciones  e  importaciones  y 
el  PNB,  X3  =  PNB  per  capita,  y  In  representa  el  logaritmo  natural.  Sus  hipotesis  fueron  que  Y 
y  X2  estarian  relacionadas  positivamente  (a  mayor  volumen  de  comercio  exterior,  mayor  re- 

( continua ) 


24  H.  White,  "A  Heteroscedasticity  Consistent  Covariance  Matrix  Estimator  and  a  Direct  Test  of  Heteroscedas- 
ticity",  Econometrica,  vol.  48,  1980,  pp.  81  7-818. 

25  El  supuesto  de  que  la  varianza  del  error  u cr2,  se  relaciona  funcionalmente  con  las  regresoras,  con  sus  va¬ 
lores  al  cuadrado  y  con  sus  productos  cruzados  esta  implfcito  en  este  procedimiento.  Si  todos  los  coeficien- 
tes  parciales  de  pendiente  en  esta  regresion  son  simultaneamente  iguales  a  cero,  entonces  la  varianza  del 
error  es  homoscedastica  e  igual  a  la  constante  «i. 

26  Stephen  R.  Lewis,  "Government  Revenue  from  Foreign  Trade",  Manchester  School  of  Economics  and  Social 
Studies,  vol.  31,  1963,  pp.  39-47. 
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EJEMPLO  11.6 

(i continuation ) 


caudo  arancelario),  y  que  Y  y  X3  estarfan  negativamente  relacionados  (a  medida  que  aumenta 
el  ingreso,  al  gobierno  se  le  facilita  recaudar  impuestos  directos  — es  decir,  el  impuesto  sobre  la 
renta —  que  depende  de  los  impuestos  sobre  el  comercio  exterior). 

Los  resultados  empfricos  apoyaron  las  hipotesis.  Para  el  proposito,  el  punto  importante  es 
averiguar  si  hay  heteroscedasticidad  en  los  datos.  Como  los  datos  son  de  corte  transversal  e 
implican  una  heterogeneidad  de  paises,  podemos  esperar  a  priori  heteroscedasticidad  en  la  va- 
rianza  del  error.  Con  la  prueba  de  heteroscedasticidad  de  White  en  los  residuos  obtenidos  de  la 
regresion  (1 1 .5.24)  se  obtuvieron  los  siguientes  resultados:27 

u2  =  —5.841  7  +  2.5629  In  Comercio,  +  0.691 8  In  PNB; 

-0.4081  (In  Comercio,)2  -  0.0491  (In  PNB,)2  (11.5.25) 

+0.001 5(ln  Comercio, )(ln  PNB,)  R2  =  0.1 1 48 

Nota:  Los  errores  estandar  no  estan  dados  porque  no  son  pertinentes  para  nuestro  proposito. 

Ahora,  n  ■  R2  =  41(0.1148)  =  4.7068,  que  tiene,  asintoticamente,  una  distribucion  ji  cua- 
drada  con  5  gl  (ipor  que?).  El  valor  ji  cuadrada  crftico  en  5%  para  5  gl  es  1 1 .0705,  el  valor  critico 
en  1 0%  es  9.2363,  y  el  valor  crftico  en  25%  es  6.62568.  Para  todos  los  fines  practicos,  podemos 
concluir,  con  base  en  la  prueba  de  White,  que  no  hay  heteroscedasticidad. 


Conviene  hacer  un  comentario  relacionado  con  la  prueba  de  White.  Si  un  modelo  tiene  mu- 
chas  regresoras,  la  introduccion  de  todas  las  regresoras,  de  sus  terminos  elevados  al  cuadrado 
(o  a  potencias  mas  elevadas)  y  de  sus  productos  cruzados  pueden  consumir  grados  de  libertad 
rapidamente.  Por  consiguiente,  se  debe  tener  cautela  con  esta  prueba.28 

En  los  casos  en  que  el  estadistico  de  prueba  de  White  es  significativo  estadisticamente,  la 
heteroscedasticidad  puede  no  necesariamente  ser  la  causa,  sino  los  errores  de  especificacion, 
los  cuales  veremos  en  mayor  detalle  en  el  capitulo  13  (recuerde  el  punto  5  de  la  seccion  11.1). 
En  otras  palabras,  la  prueba  de  White  puede  ser  una  prueba  de  heteroscedasticidad  (pura), 
de  error  de  especificacion  0  de  ambos.  Se  argumenta  que,  si  no  estan  presentes  terminos  con 
productos  cruzados  en  el  procedimiento  de  prueba  de  White,  esto  constituye  una  prueba  de  hete¬ 
roscedasticidad  pura.  Si  existen  tales  terminos,  es  una  prueba  de  heteroscedasticidad  y  de  sesgo 
de  especificacion.29 

Otras  pruebas  de  heteroscedasticidad 

Hay  muchas  otras  pruebas  de  heteroscedasticidad,  cada  una  con  supuestos  determinados.  El  lec¬ 
tor  interesado  puede  consultar  las  referencias.30  Mencionamos  solo  una  de  estas  pruebas  de- 
bido  a  su  simplicidad.  Es  la  prueba  de  Koenker-Basset  (KB).  Al  igual  que  las  pruebas  Park, 
Breusch-Pagan-Godfrey  y  la  de  White,  la  prueba  KB  se  basa  en  los  residuos  al  cuadrado,  uf,  pero 
en  vez  de  hacer  la  regresion  sobre  una  o  mas  regresoras,  se  efectua  la  regresion  de  los  residuos 
al  cuadrado  sobre  los  valores  estimados  de  la  regresora  al  cuadrado.  De  manera  especifica,  si  el 
modelo  original  es: 

Yi  =  Pi  +  p2X2i  +  p3X3i  +  ■■■  +  faXkl  +  Ui  (1 1 .5.26) 


27  Estos  resultados,  con  cambio  en  la  notacion,  se  reproducen  de  William  F.  Lott  y  Subhash  C.  Ray,  Applied 
Econometrics:  Problems  with  Data  Sets,  Instructor's  Manual,  capitulo  22,  pp.  1 37-140. 

28  A  veces  la  prueba  se  puede  modificar  para  conservar  los  grados  de  libertad.  Consulte  el  ejercicio  11.18. 
29Vease  Richard  Harris,  Using  Cointegration  Analysis  in  Econometrics  Modelling,  Prentice  Hall  &  Harvester 
Wheatsheaf,  Reino  Unido,  1995,  p.  68. 

30  Vease  M.J.  Harrison  y  B.E.  McCabe,  "A  Test  for  Heteroscedasticity  Based  on  Ordinary  Least  Squares  Resi¬ 
duals",  journal  of  the  American  Statistical  Association,  vol.  74,  1 979,  pp.  494-499;  J.  Szroeter,  "A  Class  of  Para¬ 
metric  Tests  for  Heteroscedasticity  in  Linear  Econometric  Models",  Econometrica,  vol.  46,  1 978, 
pp.  1311-1327;  M.A.  Evans  y  M.L.  King,  "A  Further  Class  of  Tests  for  Heteroscedasticity",  journal  of  Econo¬ 
metrics,  vol.  37,  1 988,  pp.  265-276;  y  R.  Koenker  y  G.  Bassett,  "Robust  Tests  for  Heteroscedasticity  Based  on 
Regression  Quantiles",  Econometrica,  vol.  50,  1982,  pp.  43-61 . 
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se  estima  este  modelo,  se  obtiene  m,-  de  dicho  modelo  y  luego  se  calcula 

u2  —  «1  +  a2(Yi)2  +  Vi  (11.5.27) 

donde  %  son  los  valores  estimados  del  modelo  (1 1.5.26).  La  hipotesis  nula  es  que  a2  =  0.  Si  no 
se  rechaza,  se  puede  concluir  que  no  existe  heteroscedasticidad.  La  hipotesis  nula  se  prueba  con 
las  pruebas  t  o  F  usuales.  (Observe  que  F]  k  =  tk.)  Si  el  modelo  (11.5.26)  es  doble  logaritmo, 
se  lleva  a  cabo  la  regresion  de  los  residuos  al  cuadrado  sobre  (log  Y,)2.  Otra  ventaja  de  la  prueba 
KB  es  que  es  aplicable  aunque  el  termino  de  error  en  el  modelo  original  (1 1.5.26)  no  este  nor- 
malmente  distribuido.  Si  aplica  la  prueba  KB  al  ejemplo  11.1,  descubrira  que  el  coeficiente  de  la 
pendiente  en  la  regresion  de  los  residuos  cuadrados  obtenida  de  (1 1.5.3)  sobre  el  Y f  estimado  a 
partir  de  (1 1 .5.3)  no  es  estadlsticamente  distinto  de  cero,  por  lo  que  se  refuerza  la  prueba  de  Park. 
Este  resultado  no  debe  sorprender,  pues  en  estos  momentos  solo  se  tiene  una  sola  regresora.  No 
obstante,  la  prueba  KB  es  aplicable  si  hay  una  o  muchas  regresoras. 

Not  a  sobre  las  pruebas  de  heteroscedasticidad 

Ya  analizamos  varias  pruebas  de  heteroscedasticidad  en  esta  seccion.  Pero,  ,',c6mo  decidir  cual  es 
la  mejor?  No  es  una  pregunta  facil,  pues  estas  pruebas  se  basan  en  supuestos  diversos.  Al  com¬ 
parer  las  pruebas,  es  necesario  prestar  atencion  al  tamano  (o  nivel  de  significance),  potencia  (la 
probabilidad  de  rechazar  una  hipotesis  falsa)  y  sensibilidad  a  los  valores  atipicos. 

Ya  senalamos  algunas  limitaciones  de  la  prueba  de  heteroscedasticidad  de  White,  que  es  po¬ 
pular  y  facil  de  aplicar.  Como  resultado  de  estas  limitaciones,  tal  vez  tenga  poca  potencia  en 
relation  con  las  opciones.  Ademas,  la  prueba  no  sirve  para  identificar  los  factores  o  variables  que 
causan  heteroscedasticidad. 

Asimismo,  la  prueba  de  Breusch-Pagan-Godfrey  es  sensible  al  supuesto  de  normalidad.  En 
contraste,  la  prueba  de  Koenker-Bassett  no  se  basa  en  el  supuesto  de  normalidad  y,  en  consecuen- 
cia,  puede  ser  mas  potente.31  En  la  prueba  de  Goldfeld-Quandt,  si  se  omiten  muchas  observacio- 
nes,  puede  disminuir  la  potencia  de  la  prueba. 

Esta  fuera  del  ambito  de  este  texto  proporcionar  un  analisis  comparative  de  las  diferentes 
pruebas  de  heteroscedasticidad.  Sin  embargo,  el  lector  interesado  puede  consultar  el  articulo  de 
John  Lyon  y  Chin-Ling  Tsai  para  darse  una  idea  de  los  puntos  fuertes  y  debiles  de  las  diversas 
pruebas  de  heteroscedasticidad.32 


11.6  Medidas  correctivas 


Como  vimos,  la  heteroscedasticidad  no  destruye  las  propiedades  de  insesgamiento  y  consistencia 
de  los  estimadores  de  MCO;  sin  embargo,  estos  ya  no  son  eficientes,  ni  siquiera  asintoticamente 
(es  decir,  en  muestras  grandes).  Esta  falta  de  eficiencia  resta  credibilidad  a  los  procedimientos 
habituales  de  pruebas  de  hipotesis.  Por  consiguiente,  es  necesario  introducir  medidas  correctivas. 
Existen  dos  enfoques  para  remediar  el  problema  de  heteroscedasticidad:  cuando  se  conoce  a2  y 
cuando  no  se  conoce  a2. 

Cuando  se  conoce  of:  metodo  de  los  rmnimos  cuadrados 
ponderados 

Como  vimos  en  la  seccion  1 1.3,  si  se  conoce  of,  el  metodo  mas  directo  de  corregir  la  heterosce¬ 
dasticidad  es  con  los  mlnimos  cuadrados  ponderados,  pues  los  estimadores  obtenidos  mediante 
este  metodo  son  MEL1. 


31  Para  detalles,  vease  William  H.  Green,  Econometric  Analysis,  6a.  ed.,  Pearson/Prentice-Hall,  Nueva  Jersey, 
2008,  pp.  165-167. 

32  Vease  su  articulo  "A  Comparison  of  Tests  of  Heteroscedasticity",  The  Statistician,  vol.  45,  num.  3,  1996, 
pp.  337-349. 
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EJEMPLO  11.7 

Ilustracion  del  me- 
todo  de  los  minimos 
cuadrados  ponde- 
rados 


Para  ilustrar  el  metodo,  suponga  que  deseamos  estudiar  la  relacion  entre  la  remuneracion  salarial 
y  el  tamano  de  la  planta  laboral  de  los  datos  de  la  tabla  11.1.  Por  simplicidad,  se  mide  el  tamano 
de  la  planta  laboral  con  las  siguientes  categorfas:  1  (1-4  empleados),  2  (5-9  empleados),  .  .  .  , 
9  (1  000-2  499  empleados),  aunque  tambien  se  puede  medir  con  el  punto  medio  de  las  diversas 
clases  de  empleados  en  la  tabla. 

Ahora,  sea  Y  la  remuneracion  salarial  promedio  por  empleado  ($)  y  X  el  tamano  de  emplea¬ 
dos.  Efectuamos  la  siguiente  regresion  [vease  la  ecuacion  (1 1 .3.6)]: 


Yi/rri  =  #(1/07)  +  PI f(X,M)  +  {ft,  fa,)  (11.6.1) 


donde  07  son  las  desviaciones  estandar  de  los  salarios  como  aparecen  en  la  tabla  11.1.  Los  datos 
simples  necesarios  para  efectuar  esta  regresion  estan  en  la  tabla  1 1 .4. 


TABLA  11.4 

Tamano  de  la 

Ilustracion  de  una 

Remuneracion, 

planta  laboral. 

regresion  de  minimos 
cuadrados  ponderados 

Y 

X 

ff; 

Yi/cr: 

X//0| 

3  396 

1 

742.2 

4.5664 

0.0013 

Fuente:  La  information  sobre  Y 

3  787 

2 

851.4 

4.4480 

0.0023 

y  Oi  (desviacion  estandar  de  la 

4  013 

3 

727.8 

5.5139 

0.0041 

remuneracion  salarial)  corres- 
ponde  a  la  tabla  1 1 . 1 .  El  tamano 

4  104 

4 

805.06 

5.0978 

0.0050 

de  la  planta  laboral:  1  =  1-4 

4  146 

5 

929.9 

4.4585 

0.0054 

empleados,  2  =  5-9  empleados, 

4  241 

6 

1  080.6 

3.9247 

0.0055 

etc.  Los  ultimos  datos  son  tarn- 

4  387 

7 

1  241.2 

3.5288 

0.0056 

bien  de  la  tabla  11.1. 

4  538 

8 

1  307.7 

3.4702 

0.0061 

4  843 

9 

1  110.7 

4.3532 

0.0081 

Nota:  En  la  regresion  (11.6.2),  la  variable  dependiente  es  (L/07),  y  las  independientes,  (1/ay)  y  (Xi/crj). 


Antes  de  proseguir  con  el  analisis  de  los  resultados  de  la  regresion,  observe  que  (1 1 .6.1)  no 
tiene  termino  de  intercepto  (^por  que?).  Por  consiguiente,  debemos  utilizar  el  modelo  de  regre¬ 
sion  a  traves  del  origen  para  estimar  /?*  y  tema  analizado  en  el  capitulo  6.  Pero,  hoy  en  dfa, 
la  mayona  de  los  paquetes  de  computacion  dan  la  opcion  de  suprimir  el  termino  de  intercepto 
( Minitab  o  EViews,  por  ejemplo).  Observe  tambien  otra  caracterfstica  interesante  de  (11.6.1): 
tiene  dos  variables  explicativas,  (I/07)  y  (X,/cr,),  mientras  que  si  utilizaramos  MCO,  la  regresion 
del  salario  sobre  el  tamano  de  la  planta  laboral  tendria  una  sola  variable  explicativa,  X,.  (iPor 
que?) 

Los  resultados  de  la  regresion  de  MCP  son  los  siguientes: 

(YJoi)  =  3  406.639(1/cr/)  +  1 54.1  53(X;/<t;) 

(80.983)  (16.959)  (11.6.2) 

f=  (42.066)  (9.090) 

R2  =  0.999333 

Para  su  comparacion,  presentamos  a  continuacion  los  resultados  de  la  regresion  de  MCO 
usual  o  no  ponderada: 

Yi  =  3  417.833  +  1 48.767 X, 

(81.136)  (14.418)  (11.6.3) 

t=  (42.125)  (10.318)  R2  =  0.9383 

En  el  ejercicio  1 1 .7  se  le  pide  comparar  estas  dos  regresiones. 


33  Como  se  senalo  en  la  nota  3  del  capitulo  6,  ft2  de  la  regresion  a  traves  del  origen  no  es  directamente  com¬ 
parable  con  R2  del  modelo  con  presencia  del  intercepto.  El  valor  R2  de  0.9993  obtenido  tiene  en  cuenta  esta 
diferencia.  (Veanse  los  diversos  paquetes  de  computo  para  mayores  detalles  sobre  la  forma  de  corregir  R2 
para  tener  en  cuenta  la  ausencia  del  termino  del  intercepto.  Vease  tambien  el  apendice  6A,  seccion  6A1 .) 
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Cuando  no  se  conoce  of 

Como  ya  vimos,  si  se  conocen  las  verdaderas  erf  podemos  utilizar  el  metodo  de  MCP  para  obte- 
ner  estimadores  MELI.  Como  pocas  veces  se  conocen  las  verdaderas  erf  (',existc  alguna  forma  de 
obtener  estimaciones  consistentes  (en  el  sentido  estadistico)  de  las  varianzas  y  covarianzas  de  los 
estimadores  de  MCO  aunque  haya  heteroscedasticidad?  La  respuesta  es  si. 

Varianzas  y  errores  estandar  consistentes  con  heteroscedasticidad  de  White 
White  demostro  que  esta  estimacion  puede  realizarse  de  forma  que  las  inferencias  estadisticas 
sean  asintoticamente  validas  (es  decir,  para  muestras  grandes)  sobre  los  verdaderas  valores  de 
los  parametros.34  No  presentaremos  aqui  los  detalles  matematicos  porque  no  estan  al  alcance 
de  este  libro.  En  el  apendice  1 1A.4  se  detalla  el  procedimiento  de  White.  Sin  embargo,  en  la 
actualidad  hay  diversos  paquetes  de  computacion  que  presentan  varianzas  y  errores  estandar  con 
la  correction  de  heteroscedasticidad  de  White  en  forma  simultanea  con  las  varianzas  y  los  erro¬ 
res  estandar  de  MCO  usuales.35  A  proposito,  los  errores  estandar  de  White  corregidos  mediante 
heteroscedasticidad  tambien  se  conocen  como  errores  estandar  robustos. 


EJEMPLO  11.8 

Ilustracion  del  pro¬ 
cedimiento  de  White 


Como  ejemplo,  citamos  los  siguientes  resultados  obtenidos  por  Greene:36 

Yi  =  832.91  -  1  834.2  (Ingreso)  +  1  587.04  (Ingreso)2 


ee  de  MCO  =  (327.3)  (829.0)  (519.1) 

t=  (2.54)  (2.21)  (3.06) 

ee  de  White  =  (460.9)  (1  243.0)  (830.0) 

t=  (1.81)  (-1.48)  (1.91) 


(11.6.4) 


donde  Y  =  gasto  per  capita  en  escuelas  publicas  por  estado  en  1979  e  Ingreso  =  ingreso  per 
capita  por  estado  en  1 979.  La  muestra  consistio  en  50  estados  mas  Washington,  D.C. 


Como  demuestran  los  resultados  anteriores,  los  errores  estandar  corregidos  por  heteroscedas¬ 
ticidad  (de  White)  resultan  considerablemente  mas  grandes  que  los  errores  estandar  de  MCO,  y, 
por  consiguiente,  los  valores  t  estimados  son  mucho  menores  que  los  obtenidos  por  MCO.  Con 
base  en  estos  ultimos,  ambas  regresoras  son  estadisticamente  significativas  en  el  nivel  de  5%, 
mientras  que  con  base  en  los  estimadores  de  White,  no  lo  son.  Sin  embargo,  cabe  senalar  que 
los  errores  estandar  corregidos  por  heteroscedasticidad  de  White  pueden  ser  mas  grandes  o  mas 
pequenos  que  los  errores  estandar  sin  corregir. 

Como  los  estimadores  de  las  varianzas  consistentes  con  heteroscedasticidad  de  White  estan 
disponibles  ahora  en  paquetes  de  computacion  para  regresion,  se  recomienda  que  el  lector  los 
reporte.  Como  recomiendan  Wallace  y  Silver: 

En  terminos  generates,  quiza  sea  buena  idea  utilizar  la  option  WHITE  [disponible  en  los  programas 
de  regresion]  sistematicamente,  tal  vez  comparar  estos  resultados  con  los  resultados  de  MCO  regula- 
res  como  forma  de  verificar  si  la  heteroscedasticidad  es  un  problema  grave  en  un  conjunto  particular 
de  datos.37 

Supuestos  razonables  sobre  el  patron  de  heteroscedasticidad 

Una  desventaja  del  procedimiento  de  White,  ademas  de  ser  de  muestras  grandes,  es  que  los  esti¬ 
madores  obtenidos  por  este  medio  pueden  no  ser  tan  eficientes  como  los  obtenidos  por  metodos 


34Vease  H.  White,  op.  cit. 

35  Mas  tecnicamente,  se  conocen  como  estimadores  de  la  matriz  de  covarianzas  consistentes  con 
heteroscedasticidad:  para  abreviar,  EMCCH. 

36  William  H.  Greene,  Econometric  Analysis,  2a.  ed.,  Macmillan,  Nueva  York,  1993,  p.  385. 

37 T.  Dudley  Wallace  y  J.  Lew  Silver,  Econometrics:  An  Introduction,  Addison-Wesley,  Reading,  Massachusetts, 
1 988,  p.  265. 
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que  transforman  la  informacion  para  reflejar  tipos  especificos  de  heteroscedasticidad.  Para  ilus- 
trar  esto,  recordemos  el  modelo  de  regresion  con  dos  variables: 

Yi  —  Pi  +  PiX,  +  iii 

Consideraremos  ahora  diversos  supuestos  sobre  el  patron  de  heteroscedasticidad. 


SUPUESTO  1 

La  varianza  del  error  es  proporcional  a  X;2: 

f(u2)=a2X2 

(11.6.5)B8 

Si,  por  razones  de  “especulacion”,  por  los  metodos  graficos,  o  por  los  metodos  Park  y  Glej- 
ser,  se  cree  que  la  varianza  de  m,  es  proporcional  al  cuadrado  de  la  variable  explicativa  X  (figura 
1 1 . 1 0),  se  puede  transformar  el  modelo  original  de  la  siguiente  manera.  Divida  el  modelo  original 
entre  Xt : 


Yi_ 

X, 


A  , _o 

X+Pl  + 


Ui 

Xi 


1 

—  Pi  TT  +  Pi  +  V; 
Ai 


(11.6.6) 


donde  v,  es  el  termino  de  perturbacion  transformado,  igual  a  «,  /Xi.  Ahora,  es  facil  verificar  que 


£«>  =  £(1  =i£(“-> 


=  o~ 


utilizando  (1 1.6.5) 


Por  tanto,  la  varianza  de  v,  es  ahora  homoscedastica  y  podemos  aplicar  MCO  a  la  ecuacion  trans- 
formada  (11.6.6),  con  la  regresion  Yt/Xj  sobre  1  /Xj. 


FIGURA  11.10 

Varianza  del  error  propor¬ 
cional  aX2. 


38  Recuerde  que  ya  tratamos  este  supuesto  en  el  analisis  de  la  prueba  Goldfeld-Quandt. 
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Observe  que,  en  la  regresion  transformada,  el  termino  del  intercepto  /b  es  el  coeficiente  de 
pendiente  en  la  ecuacion  original,  y  el  coeficiente  de  la  pendiente  fit  es  el  termino  del  intercepto 
en  el  modelo  original.  Por  consiguiente,  para  retornar  al  modelo  original  tenemos  que  multiplicar 
la  estimation  (1 1.6.6)  por  X,.  Una  aplicacion  de  esta  transformacion  esta  en  el  ejercicio  1 1.20. 


SUPUESTO  2 


La  varianza  del  error  es  proporcional  a  X,.  La  transformacion  de  raiz  cuadrada: 


E 


=  a2  Xj 


(11.6.7) 


Si  se  cree  que  la  varianza  de  en  lugar  de  ser  proporcional  al  cuadrado  X„  es  proporcional  a 
la  m  ism  a  A),  entonces  el  modelo  original  se  transforma  de  la  siguiente  manera  (figura  11.11): 


y,  _  Pi 

JXi  JXr 


+  Ply/Xi  + 


=  P  1 


spfi 


+  @2 \fx~i  +  V,' 


(11.6.8) 


donde  v,-  =  ut/^fX]  y  donde  Xj  >  0. 

Con  el  supuesto  2  se  verifica  facilmente  que  E(vf)  —  a2,  una  situacion  homoscedastica.  Por 
consiguiente,  se  puede  aplicar  MCO  a  (11.6.8),  con  la  regresion  de  Yj/^/X)  sobre  l/^/Xj  y 
VXj. 

Observe  una  caracteristica  importante  del  modelo  transformado:  no  tiene  termino  de  inter¬ 
cepto.  Por  consiguiente,  sera  necesario  el  modelo  de  regresion  a  traves  del  origen  para  estimar  /fi 
y  fc.  Tras  efectuar  la  regresion  (1 1.6.8),  retornamos  al  modelo  original  con  tan  solo  multiplicar 
(1 1.6.8)  por  \[Xj. 

Un  caso  interesante  es  el  modelo  de  intercepto  cero,  es  decir,  Y,  —  ftiX,  +  u,.  En  este  caso,  la 
ecuacion  ( 1 1.6.8)  se  convierte  en: 


Yj 


JXi 


(11.6.8a) 


FIGURA  11.11 

Varianza  del  error  propor¬ 
cional  a  X. 
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Y  se  puede  demostrar  que 


h  =  \  (11.6.8b) 

Es  decir,  el  estimador  de  minimos  cuadrados  ponderados  es  simplemente  la  razon  de  las  medias 
de  las  variables  dependiente  y  explicativa.  (Para  probar  la  ecuacion  [1 1.6.8b],  se  aplica  la  formu¬ 
la  de  regresion  a  traves  del  origen  dada  en  la  ecuacion  [6.1.6].) 


SUPUESTO  3  La  varianza  del  error  es  proporcional  al  cuadrado  del  valor  medio  de  Y. 

E(u?)=a2[E(Y,)]2 


(11.6.9) 


La  ecuacion  (1 1.6.9)  postula  que  la  varianza  de  u,  es  proporcional  al  cuadrado  del  valor  espe- 
rado  de  Y  (figura  1 1.8e).  Ahora, 


E(Yt)  =  fa  +  foXi 


Por  consiguiente,  si  transformamos  la  ecuacion  original  de  la  siguiente  manera, 

Yi  P\  Xi  ,  Uj 

+  Pl~ 


+ 


E(Yi)  E(Y ,-)  ^E(Y)  E(Yi) 


=  Pi 


1 


E(Y) 


Xi 

Pi - 4"  Vi 

E(Yi) 


(11.6.10) 


donde  v,  =  iii/E(Yj),  se  ve  que  E(vf)  =  ct2;  es  decir,  las  perturbaciones  v,-  son  homoscedasticas. 
Por  tanto,  es  la  regresion  (1 1.6.10)  la  que  satisfara  el  supuesto  de  homoscedasticidad  del  modelo 
clasico  de  regresion  lineal. 

La  transformacion  (1 1.6.10),  sin  embargo,  no  funciona,  porque  E(Y{)  depende  de  ft\  y  Pi,  los 
cuales  no  se  conocen.  Por  supuesto,  se  conoce  %  =  P\  +  PiXh  que  es  un  estimador  de  E(  >)).  Por 
consiguiente,  podemos  proceder  en  dos  etapas:  primero,  efectuamos  la  regresion  de  MCO  usual 
sin  considerar  el  problema  de  heteroscedasticidad  y  obtenemos  Yt.  Luego,  con  el  Yl  estimado, 
transformamos  el  modelo  de  la  siguiente  manera: 

t=A(i)+fc(  fH  (n,'ni 

donde  v,  =  (u,/Y,  ).  En  el  paso  2  efectuamos  la  regresion  (11.6.11).  Aunque  Y,  no  es  exacta- 
mente  E(  Y,  ),  estos  estimadores  son  consistentes\  es  decir,  a  medida  que  el  tamano  de  la  muestra 
aumenta  indefinidamente,  estos  convergen  hacia  el  verdadero  E(Yt).  Por  tanto,  la  transformacion 
(11.6.11)  tendra  un  desempeno  adecuado  en  la  practica  si  el  tamano  de  la  muestra  es  razonable- 
mente  grande. 


SUPUESTO  4  Una  transformacion  logaritmica  como 

In  Yj  =  Pi  +  p2  In  Xi  +  Uj  (1 1 .6.1 2) 

con  gran  frecuencia  reduce  la  heteroscedasticidad  cuando  se  compara  con  la  regresion 

Yi=  Pi  +  Pi^i  +  Uj. 
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Este  resultado  surge  porque  la  transformacion  logaritmica  comprime  las  escalas  en  las  cuales 
se  miden  las  variables,  y  por  tanto  reduce  una  diferencia  entre  dos  valores  de  diez  veces  a  una 
diferencia  de  dos  veces.  Asl,  el  numero  80  es  diez  veces  el  numero  8,  pero  el  In  80  (=  4.3280)  es 
cerca  de  dos  veces  tan  grande  como  In  8  (  =  2.0794). 

Otra  ventaja  de  la  transformacion  logaritmica  es  que  el  coeficiente  de  pendiente  fii  mide  la 
elasticidad  de  Y  respecto  de  X,  es  decir,  el  cambio  porcentual  en  Y  ante  un  cambio  porcentual  en 
X.  Por  ejemplo,  si  f'es  el  consumo  y  A  cl  ingreso,  [Y  en  (1 1.6.12)  mide  la  elasticidad  del  ingreso, 
mientras  que  en  el  modelo  original,  ft 2  solo  mide  la  tasa  de  cambio  del  consumo  medio  por  cam¬ 
bio  unitario  del  ingreso.  Esta  es  una  razon  por  la  cual  los  modelos  logaritmicos  son  muy  popula- 
res  en  la  econometria  empirica.  (En  el  ejercicio  11.4  se  aprecian  algunos  problemas  asociados  a 
la  transformacion  logaritmica.) 

Para  concluir  la  exposicion  sobre  medidas  correctivas,  de  nuevo  destacamos  que  todas  las 
transformaciones  analizadas  antes  son  ad  hoc,  en  esencia,  especulamos  sobre  la  naturaleza  de  erf. 
El  que  las  transformaciones  estudiadas  en  verdad  funcionen  depende  de  la  naturaleza  del  pro- 
blema  y  de  la  gravedad  de  la  heteroscedasticidad.  Hay  otros  problemas  con  las  transformaciones 
que  deben  tomarse  en  cuenta: 

1 .  Cuando  se  va  mas  alia  del  modelo  con  dos  variables  tal  vez  no  se  conozca  a  priori  la  varia¬ 
ble  X  que  debe  seleccionarse  para  transformar  los  datos.39 

2.  La  transformacion  logaritmica  como  se  analiza  en  el  supuesto  4  no  es  aplicable  si  algun 
valor  de  Y  o  de  Xes  cero  o  negativo.40 

3.  Ademas,  hay  un  problema  de  correlacion  espuria.  Este  termino,  atribuido  a  Karl  Pear¬ 
son,  se  refiere  a  la  situation  de  correlacion  entre  las  razones  de  variables,  aunque  las  variables 
originales  no  esten  correlacionadas  o  sean  aleatorias.41  Asi,  en  el  modelo  Yt  =  fi\  +  f}2 X,  +  Ui, 
Yy  X pucdcn  no  estar  correlacionados,  pero  en  el  modelo  transformado  Yi/Xl  —  /ti(  I  /X,)+  f}2,  a 
menudo  se  encuentra  que  Yt  /Xj  y  1  /X,  si  lo  estan. 

4.  Cuando  las  af  no  se  conocen  directamente  y  se  estiman  a  partir  de  una  o  mas  de  las 
transformaciones  ya  analizadas,  todos  los  procedimientos  de  prueba  t,  F,  etc.,  son,  en  estricto 
sentido,  validos  solo  para  muestras  grandes.  Por  consiguiente,  se  debe  tener  cuidado  al  inter¬ 
pretar  resultados  fundados  en  las  diversas  transformaciones  cuando  las  muestras  son  pequenas 
o  finitas.42 


11.7  Ejemplos  para  concluir 


Para  concluir  el  analisis  de  heteroscedasticidad  presentamos  tres  ejemplos  que  ilustran  los  prin¬ 
cipals  temas  de  este  capitulo. 


39  Sin  embargo,  como  un  asunto  practico,  se  puede  graficar  uf  contra  cada  una  de  las  variables  y  decidir 
cual  variable  X  puede  utilizarse  para  transformar  la  informacion  (figura  1 1 .9). 

40  Algunas  veces  podemos  utilizar  In  {Y,  +  k)  o  In  (X,  +  k),  donde  k  es  un  numero  positivo  seleccionado  de 
forma  que  todos  los  valores  de  Yy  X  se  tornan  positivos. 

41  Por  ejemplo,  si  Xi,  X2  y  X3  estan  mutuamente  no  correlacionadas,  q  2  =  0  3  =  =  0  y  se  encuentra  que 

las  razones  (sus  valores)  X1/X3  y  X2/X3  estan  correlacionadas,  entonces  hay  correlacion  espuria.  "En  terminos 
mas  generales,  la  correlacion  se  describe  como  espuria  si  es  inducida  por  el  metodo  de  manejo  de  datos  y 
no  esta  presente  en  la  informacion  original."  M.  G.  Kendall  y  W.  R.  Buckland,  A  Dictionary  of  Statistical  Terms, 
Hafner,  NuevaYork,  1972,  p.  143. 

42  Para  mayores  detalles,  vease  George  G.  Judge  et  al.,  op.  cit.,  seccion  14.4,  pp.  41 5-420. 
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EJEMPLO  11.9 

De  nuevo  la  morta- 
lidad  infantil 


Regresemos  al  ejemplo  de  mortalidad  infantil  que  hemos  analizado  en  diversas  ocasiones.  De  los 
datos  de  64  pafses  obtuvimos  los  resultados  de  la  regresion  mostrados  en  la  ecuacion  (8.1.4). 
En  vista  de  que  los  datos  son  transversales  e  implican  diferentes  pafses  con  distintas  experiencias 
sobre  mortalidad  infantil,  parece  muy  probable  que  haya  heteroscedasticidad.  Para  descubrirlo, 
primero  tomaremos  en  cuenta  los  residuos  obtenidos  de  la  ecuacion  (8.1.4).  Tales  residuos  se 
grafican  en  la  figura  11.12.  De  acuerdo  con  dicha  grafica,  al  parecer  los  residuos  no  muestran 
ningun  patron  especffico  que  sugiera  heteroscedasticidad.  No  obstante,  las  apariencias  enga- 
nan,  asf  que  aplicaremos  las  pruebas  de  Park,  Glejser  y  White  para  descubrir  alguna  evidencia 
de  heteroscedasticidad. 


Prueba  de  Park.  Como  hay  dos  regresoras,  PIB  y  TAM,  hacemos  la  regresion  de  los  residuos  al 
cuadrado  a  partir  de  la  regresion  (8.1 .4)  sobre  cualquiera  de  esas  variables.  O  podemos  efectuar 
la  regresion  de  ellos  sobre  los  valores  estimados  de  Ml  (=  Mi)  a  partir  de  la  regresion  (8.1.4). 
Con  la  regresion  anterior  obtenemos  los  siguientes  resultados: 

uf  =  854.4006  +  5.701  6  Ml,  7  1) 

t=  (1.2010)  (1.2428)  r2  =  0.024 

Nota:  Uj  son  los  residuos  obtenidos  de  la  regresion  (8.1 .4)  y  Mi  son  los  valores  estimados  de  Ml 
a  partir  de  la  regresion  (8.1 .4). 

Como  muestra  esta  regresion,  no  existe  ninguna  relacion  sistematica  entre  el  cuadrado  de 
los  residuos  y  los  valores  estimados  de  Ml  (ipor  que?),  lo  cual  sugiere  que  el  supuesto  sobre  la 
homoscedasticidad  puede  ser  valido.  A  proposito,  si  hacemos  la  regresion  del  logaritmo  de  los 
residuos  al  cuadrado  sobre  el  logaritmo  de  Ml,  no  cambia  la  conclusion. 

Prueba  de  Glejser.  Los  valores  absolutos  de  los  residuos  obtenidos  a  partir  de  (8.1 .4),  cuando 
se  hizo  la  regresion  de  los  valores  estimados  de  Ml  a  partir  de  esa  misma  regresion,  dieron  estos 
resultados: 


|i1, |  =  22.3127  +  0.0646  Ml, 

Ml  7  21 

t=  (2.8086)  (1.2622)  r2  =  0.0250  v  ’ 

De  nuevo,  no  existe  una  gran  relacion  sistematica  entre  los  valores  absolutos  de  los  residuos  y  los 
valores  estimados  de  Ml,  pues  el  valor  t  del  coeficiente  de  la  pendiente  no  es  estadfsticamente 
significativo. 

Prueba  de  White.  Al  aplicar  la  prueba  de  White  para  la  heteroscedasticidad  con  y  sin  los  termi- 
nos  de  los  productos  cruzados  no  hallamos  ninguna  evidencia  de  heteroscedasticidad.  Tambien 
volvimos  a  estimar  (8.1.4)  para  obtener  los  errores  estandar  consistentes  con  heteroscedasti¬ 
cidad  de  White  y  los  valores  f,  pero  los  resultados  fueron  muy  parecidos  a  los  de  la  ecuacion 
(8.1.4),  lo  cual  no  sorprende  en  vista  de  lo  arrojado  por  las  diversas  pruebas  de  heteroscedasti¬ 
cidad  anteriores. 

En  resumen,  parece  que  la  regresion  de  mortalidad  infantil  (8.1.4)  no  experimenta  heteros¬ 
cedasticidad  alguna. 


FIGURA  11.12 

Residuos  de  la  regresion 
(8.1.4). 
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EJEMPLO  11.10 

Gastos  en  investi¬ 
gation  y  desarrollo 
(IyD),  ventasy  uti- 
lidades  de  14  sec- 
tores  industriales 
de  E st ados  Unidos, 
2005 


En  la  tabla  1 1 .5  se  presentan  datos  sobre  el  gasto  en  investigacion  y  desarrollo  (IyD),  ventas  y 
utilidades  de  14  sectores  industriales  en  Estados  Unidos  (todas  las  cifras  se  expresan  en  millones 
de  dolares).  Como  los  datos  transversales  presentados  en  la  tabla  1 1 .5  son  muy  heterogeneos, 
en  una  regresion  de  IyD  sobre  las  ventas  es  probable  la  presencia  de  heteroscedasticidad.  Los 
resultados  obtenidos  de  la  regresion  fueron  los  siguientes: 

IyD,  =  1  338  +  0.0437  Ventas, 

ee  =  (5  01 5)  (0.0277)  (11.7.3) 

f=  (0.27)  (1.58)  r2  =  0.1 72 

No  sorprende  una  relacion  positiva  entre  IyD  y  ventas,  aunque  no  sea  estadisticamente  signifi- 
cativa  en  los  niveles  tradicionales. 


TABLA  11.5 

Ventas  y  empleo  para 
empresas  que  realizan 
IyD  industrial  en  Esta¬ 
dos  Unidos,  por  indus- 
tria,  2005  (los  valores 
se  expresan  en  millones 
de  dolares) 

Fuente:  National  Science 
Foundation,  Division  of  Science 
Resources  Statistics,  Survey 
of  Industrial  Research  and 
Development,  2005,  y  U.S. 
Census  Bureau  Annual  Survey 
of  Manufacturers,  2005. 


Industria 

Ventas 

IyD 

Utilidades 

1 

Alimentos 

374  342 

2  716 

234  662 

2 

Textiles,  ropa  y  cuero 

51  639 

816 

53  510 

3 

Productos  qulmicos  basicos 

109  899 

2  277 

75  168 

4 

Resinas,  caucho  sintetico,  fibras 
y  filamentos 

132  934 

2  294 

34  645 

5 

Productos  farmaceuticos  y 
medicamentos 

273  377 

34  839 

127  639 

6 

Productos  de  plastico  y  caucho 

90  176 

1  760 

96  162 

7 

Productos  metalicos  fabricados 

1  74  1  65 

1  375 

155  801 

8 

Maquinaria 

230  941 

8  531 

143  472 

9 

Computadoras  y  equipo  periferico 

91  010 

4  955 

34  004 

10 

Semiconductores  y  otros  componentes 
electronicos 

1  76  054 

18  724 

81  317 

11 

Instrumentos  de  navegacion,  medicion, 
electromedicos  y  de  control 

1 1  8  648 

15  204 

73  258 

12 

Equipo  electrico,  aparatos 
electrodomesticos  y  componentes 

101  398 

2  424 

54  742 

13 

Productos  y  partes  aeroespaciales 

227  271 

15  005 

72  090 

14 

Equipo  y  suministros  medicos 

56  661 

4  374 

52  443 

Para  verificar  si  la  regresion  (11.7.3)  experimenta  heteroscedasticidad,  obtuvimos  los  resi- 
duos  Uj  y  los  residuos  al  cuadrado  uf  del  modelo,  y  se  graficaron  respecto  de  las  ventas,  como 
se  muestra  en  la  figura  11.13.  Segun  esta  figura,  parece  que  existe  un  patron  sistematico  entre 
los  residuos  y  los  cuadrados  de  los  residuos  y  las  ventas,  lo  cual  indica  heteroscedasticidad.  Para 
probar  esto  de  manera  formal,  utilizamos  las  pruebas  de  Park,  Glejser  y  White,  las  cuales  dieron 
los  siguientes  resultados: 

Prueba  de  Park 

uf  =  -72  493  719  +  916.1  Ventas, 

ee  =  (54  940  238)  (303.9)  (11.7.4) 

f=  (-1.32)  (3.01)  r2  =  0.431 

La  prueba  de  Park  indica  una  relacion  positiva  estadisticamente  significativa  entre  el  cuadrado 
de  los  residuos  y  las  ventas. 
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EJEMPLO  11.10 

(continuation) 


FIGURA  11.13  Residuos  a)  y  cuadrado  de  los  residuos  b )  sobre  ventas. 
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Prueba  de  Glejser 

|u;|  =  —1  003  +  0.04639  Ventas, 

ee=  (2  316)  (0.0128)  (11.7.5) 

t  =  (—0.43)  (3.62)  r2  =  0.522 

La  prueba  de  Glejser  tambien  indica  una  relacion  sistematica  entre  los  valores  absolutos  de  los 
residuos  y  las  ventas,  con  lo  que  aumenta  la  posibilidad  de  que  la  regresion  (11.7.3)  presente 
heteroscedasticidad. 

Prueba  de  White 

Oif  =  -46  746  325  +  578  Ventas, 

ee=  (112  224  348)  (1  308) 

t=  (-0.42)  (0.44) 

R2  =  0.435 

Con  el  valor  R2  y  n  =  14,  se  obtiene  nR2  =  6.090.  Con  la  hipotesis  nula  de  inexistencia  de 
heteroscedasticidad,  esto  debe  seguir  una  distribucion  ji  cuadrada  con  2  gl  [porque  hay  dos  re- 
gresoras  en  (1 1 .7.6)].  El  valor  p,  que  resulta  de  obtener  un  valor  ji  cuadrado  de  6.090  o  mayor, 
es  de  casi  0.0476.  Como  se  trata  de  un  valor  bajo,  la  prueba  de  White  tambien  indica  heteros¬ 
cedasticidad. 


+  0.000846  Ventas? 

(0.003171)  (11.7.6) 

(0.27) 
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En  resumen,  con  base  en  las  graficas  de  los  residuos  y  las  pruebas  de  Park,  Glejser  y  White, 
parece  que  en  la  regresion  de  lyD  (11.7.3)  existe  heteroscedasticidad.  Como  la  verdadera  va¬ 
rianza  del  error  se  desconoce,  no  podemos  utilizar  el  metodo  de  los  mmimos  cuadrados  ponde- 
rados  para  obtener  los  errores  estandares  corregidos  por  heteroscedasticidad  y  los  valores  t.  Por 
consiguiente,  con  base  en  los  datos  disponibles,  tendrfamos  que  hacer  conjeturas  respecto  de  la 
naturaleza  de  la  varianza  de  error. 

Para  concluir  el  ejemplo,  a  continuacion  presentamos  los  errores  estandar  de  White  consis- 
tentes  con  heteroscedasticidad,  como  se  analizaron  en  la  seccion  1 1 .6: 

lyD,  =  1  337.87  +  0.0437  Ventas, 

ee  =  (4  892.447)  (0.0411)  (11.7.7) 

f=  (0.27)  (1.06)  r2  =  0.1 72 

Al  comparar  la  ecuacion  (11.7.7)  con  la  ecuacion  (11.7.3)  (la  segunda  sin  correccion  por  he¬ 
teroscedasticidad),  observamos  que,  a  pesar  de  que  no  cambiaron  los  parametros  estimados 
(como  era  de  esperarse),  el  error  estandar  del  coeficiente  del  intercepto  disminuyo  un  poco  y  el 
error  estandar  del  coeficiente  de  la  pendiente  se  incremento  un  poco.  Pero  recuerde  que  el  pro- 
cedimiento  de  White  es  estrictamente  para  muestras  grandes,  en  tanto  que  aquf  solo  tenemos 
1 4  observaciones. 


EJEMPLO  11.11  La  tabla  1 1 .6  del  sitio  Web  del  libro  contiene  datos  sobre  salarios  y  otros  aspectos  relacionados 
correspondientes  a  94  distritos  escolares  en  el  noroeste  de  Ohio.  En  principio,  se  estimo  la  si- 
guiente  regresion  con  base  en  estos  datos: 

In(Salario),  =  f}-\  +  In(lngresofam)  +  p 3  In(Valorinm)  +  u, 

Donde  Salario  =  salario  promedio  de  los  maestros  ($),  Ingresofam  =  ingreso  familiar  promedio 
en  el  distrito  ($)  y  Valorinm  =  valor  promedio  de  los  inmuebles  en  el  distrito  ($). 

Como  se  trata  de  un  modelo  de  doble  logaritmo,  todos  los  coeficientes  de  las  pendientes  son 
elasticidades.  Con  base  en  las  diversas  pruebas  de  heteroscedasticidad  analizadas  en  el  texto,  se 
concluyo  que  el  modelo  anterior  tenfa  heteroscedasticidad.  Por  tanto,  obtuvimos  los  errores  es¬ 
tandar  robustos  (de  White).  La  siguiente  tabla  presenta  los  resultados  de  la  regresion  precedente 
con  y  sin  errores  estandar  robustos. 


Variable 

Coeficiente 

ee  MCO 

ee  robusto 

Intercepto 

7.0198 

0.8053 

0.7721 

In(ingresofam) 

0.2575 

(8.7171) 

0.0799 

(9.0908) 

0.1009 

In(valorinm) 

0.0704 

(3.2230) 

0.0207 

(2.5516) 

0.0460 

R2 

0.2198 

(3.3976) 

(1.5311) 

Nota:  Las  cifras  entre  parentesis  son  razones  t  estimadas. 


Aunque  los  valores  de  los  coeficientes  y  R2  son  iguales  con  el  metodo  de  MCO  o  con  el  de 
White,  los  errores  estandar  cambiaron;  el  cambio  mas  radical  es  el  del  error  estandar  del  coefi¬ 
ciente  In(valorinm).  El  metodo  habitual  de  MCO  indicaria  que  el  coeficiente  estimado  de  esta 
variable  es  muy  significativo  estadfsticamente,  mientras  que  el  error  estandar  robusto  de  White 
indica  que  este  coeficiente  no  es  significativo  ni  siquiera  en  el  nivel  de  10%.  Lo  importante  de 
este  ejemplo  es  que,  si  existe  heteroscedasticidad,  debe  tomarse  en  cuenta  para  estimar  el  mo¬ 
delo. 
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11.8  Advertencia  respecto  de  una  reaccion  exagerada 
ante  la  heteroscedasticidad 


En  el  ejemplo  sobre  IyD  analizado  en  la  seccion  anterior  vimos  que,  cuando  utilizamos  la  trans¬ 
formation  ralz  cuadrada  para  corregir  la  heteroscedasticidad  en  el  modelo  original  (11.7.3),  el 
error  estandar  del  coeficiente  de  la  pendiente  disminuyo  y  su  valor  t  aumento.  <^Este  cambio  es  tan 
importante  como  para  causar  preocupacion  en  la  practica?  En  otras  palabras,  ^cuando  debe  preo- 
cupar  el  problema  de  la  heteroscedasticidad?  Como  sostiene  un  autor:  “la  heteroscedasticidad 
jamas  ha  sido  una  razon  para  desechar  un  modelo  que  de  otra  forma  serla  adecuado”.43 
Aqul  vale  la  pena  recordar  la  advertencia  de  John  Fox: 

.  .  .vale  la  pena  corregir  una  varianza  del  error  desigual  solo  cuando  el  problema  es  grave. 

El  impacto  de  una  varianza  del  error  no  constante  sobre  la  eficacia  de  un  estimador  de  minimos 
cuadrados  ordinarios  y  sobre  la  validez  de  la  inferencia  de  minimos  cuadrados  depende  de  diver- 
sos  factores,  como  el  tamano  de  la  muestra,  el  grado  de  variation  de  of,  la  configuration  de  los  va- 
lores  X(es  decir,  la  regresora)  y  de  la  relation  entre  la  varianza  del  error  y  las  X.  Por  consiguiente,  no 
es  posible  llegar  a  conclusiones  generales  respecto  del  dano  producido  por  la  heteroscedasticidad.44 

De  regreso  al  modelo  (1 1.3.1),  vimos  ya  que  la  varianza  del  estimador  de  pendiente,  var  ((>2), 
esta  dada  por  la  formula  usual  mostrada  en  (11.2.3).  Segun  MCG,  la  varianza  del  estimador  de 
pendiente,  var  (/If),  esta  dada  por  (11.3.9).  Sabemos  que  esta  ultima  es  mas  eficaz  que  la  pri- 
mera.  Pero,  <^que  tan  grande  debe  ser  la  primer  varianza  (es  decir,  la  de  MCO)  en  relation  con 
la  varianza  de  MCG  antes  de  que  cause  preocupacion?  Como  regia  practica,  Fox  sugiere  que  el 
problema  empiece  a  preocupar  “...cuando  la  varianza  del  error  mas  grande  sea  mayor  que  10 
veces  la  mas  pequena”.45  Por  consiguiente,  al  revisar  los  resultados  de  las  simulaciones  Monte 
Carlo  de  Davidson  y  MacKinnon  presentadas  antes,  considere  el  valor  de  a  =  2.  La  varianza  del 
P2  estimado  es  0.04  con  MCO,  y  0.012  con  MCG,  por  lo  que  la  razon  de  la  primera  respecto  de 
la  segunda  es  de  casi  3. 33. 46  De  acuerdo  con  la  regia  de  Fox,  en  este  caso  la  gravedad  de  la  hete¬ 
roscedasticidad  quiza  no  sea  lo  bastante  grande  para  provocar  preocupacion. 

Tambien  recuerde  que,  a  pesar  de  la  heteroscedasticidad,  los  estimadores  de  MCO  (en  con- 
diciones  generales)  son  lineales  e  insesgados,  y  estan  asintotica  y  normalmente  distribuidos  (es 
decir,  en  muestras  grandes). 

Como  veremos  cuando  analicemos  otra  violation  a  los  supuestos  del  modelo  clasico  de  re- 
gresion  lineal,  la  advertencia  de  esta  section  resulta  apropiada  como  regia  general.  Si  hace  caso 
omiso  de  lo  anterior,  puede  cometer  errores. 


Resumen  y 
conclusiones 


1.  Un  supuesto  importante  del  modelo  clasico  de  regresion  lineal  es  que  todas  las  perturbaciones 
iij  tienen  la  misma  varianza  cr1 2 3 4.  Si  este  supuesto  no  se  satisface,  hay  heteroscedasticidad. 

2.  La  heteroscedasticidad  no  destruye  las  propiedades  de  insesgamiento  y  consistencia  de  los 
estimadores  de  MCO. 

3.  Sin  embargo,  estos  estimadores  dejan  de  tener  varianza  minima,  es  decir,  de  ser  eficientes.  Por 
consiguiente,  no  son  MELI. 

4.  Los  estimadores  MELI  son  proporcionados  por  el  metodo  de  minimos  cuadrados  ponderados, 
siempre  que  se  conozcan  las  varianzas  heteroscedasticas  de  error,  of. 


43  N.  Gregory  Mankiw,  "A  Quick  Refresher  Course  in  Macroeconomics",  journal  of  Economic  Literature,  vol. 
XXVIII,  diciembre  de  1 990,  p.  1 648. 

44  John  Fox,  Applied  Regression  Analysis,  Linear  Models,  and  Related  Methods,  Sage,  California,  1997,  p.  306. 

45  Ibid.,  p.  307. 

46  Observe  que  los  errores  estandar  se  elevaron  al  cuadrado  para  obtener  las  varianzas. 
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EJERCICIOS 


5.  En  presencia  de  heteroscedasticidad,  las  varianzas  de  los  estimadores  de  MCO  no  se  obtienen 
con  las  formulas  usuales  de  MCO.  Sin  embargo,  si  insiste  en  utilizar  las  formulas  habituales 
de  MCO,  las  pruebas  t  y  Fbasadas  en  ellas  pueden  conducir  a  grandes  desatinos  que  daran  por 
resultado  conclusiones  erroneas. 

6.  Es  mas  facil  documentar  las  consecuencias  de  la  heteroscedasticidad  que  detectarlas.  Existen 
diversas  pruebas  de  diagnostico  disponibles,  pero  no  se  puede  decir  con  seguridad  cual  fun- 
cionara  en  una  situacion  dada. 

7.  Aunque  se  sospeche  y  se  detecta  la  heteroscedasticidad,  no  es  facil  corregir  el  problema.  Si  la 
muestra  es  grande,  se  pueden  obtener  los  errores  estandar  de  los  estimadores  de  MCO  corre- 
gidos  por  el  metodo  de  heteroscedasticidad  de  White  y  realizar  inferencia  estadistica  basada 
en  estos  errores  estandar. 

8.  De  lo  contrario,  con  base  en  los  residuos  de  MCO,  se  pueden  hacer  conjeturas  con  ciertos 
fundamentos  acerca  del  patron  probable  de  heteroscedasticidad  y  transformar  la  informacion 
original  de  manera  que  en  la  informacion  transformada  no  haya  heteroscedasticidad. 


Preguntas 

11.1.  Establezca  si  las  siguientes  afirmaciones  son  verdaderas,  falsas  o  inciertas  y  comente  sus 

razones  brevemente\ 

a)  En  presencia  de  heteroscedasticidad,  los  estimadores  de  MCO  son  sesgados  e  inefi- 
cientes. 

b)  Si  hay  heteroscedasticidad,  las  pruebas  convencionales  ty  F  son  invalidas. 

c)  En  presencia  de  heteroscedasticidad,  el  metodo  de  MCO  habitual  siempre  sobrees- 
tima  los  errores  estandar  de  los  estimadores. 

d)  Si  los  residuales  estimados  mediante  una  regresion  por  MCO  exhiben  un  patron  sis- 
tematico,  significa  que  hay  heteroscedasticidad  en  los  datos. 

e )  No  hay  una  prueba  general  de  heteroscedasticidad  que  no  este  basada  en  algun  su- 
puesto  acerca  de  cual  variable  esta  correlacionada  con  el  termino  de  error. 

/)  Si  el  modelo  de  regresion  esta  mal  especificado  (por  ejemplo,  si  se  omitio  una  variable 
importante),  los  residuos  de  MCO  mostraran  un  patron  claramente  distinguible. 

g)  Si  una  regresora  con  varianza  no  constante  se  omite  (incorrectamente)  de  un  modelo, 
los  residuos  (MCO)  seran  heteroscedasticos. 

1 1.2.  En  una  regresion  de  salarios  promedio  (W,  $)  sobre  el  niimero  de  empleados  ( N )  de  una 

muestra  aleatoria  de  30  empresas  se  obtuvieron  los  siguientes  resultados:* 


W  =  7.5  +  0.009A 

t  —  n.a.  (16.10)  R2  —  0.90 
W/N=  0.008  +  7.8(1/A0 

t=  (14.43)  (76.58)  R2  =  0.99 


(1) 

(2) 


a )  /.Como  interpreta  las  dos  regresiones? 

b)  /.Quc  supone  el  autor  al  pasar  de  la  ecuacion  ( 1)  a  la  (2)?  /.Lc  preocupaba  la  heteros¬ 
cedasticidad?  /.Como  sabe? 

c)  /.Puede  relacionar  las  pendientes  y  los  interceptos  de  los  dos  modelos? 

d)  /.Puede  comparar  los  valores  de  R2  de  los  dos  modelos?  /.Por  que? 


*Vease  Dominick  Salvatore,  Managerial  Economics,  McGraw-Hill,  Nueva  York,  1989,  p.  157. 
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11.3.  a)  /.Puede  estimar  los  parametros  de  los  modelos 

I Ui  |  =  aJ]5\  +  P2 Xi  +  Vi 

I  Mi  I  =  yj  P 1  +  PiXl  +  Vi 

mediante  el  metodo  de  mlnimos  cuadrados  ordinarios?  /.Por  que? 
b)  Si  la  respuesta  es  negativa,  /.puede  sugerir  un  metodo  informal  o  formal  de  estimation 
de  los  parametros  de  tales  modelos?  (Vease  el  capitulo  14.) 

11.4.  Aunque  los  modelos  logaritmicos  como  el  de  la  ecuacion  (1 1.6.12)  a  menudo  reducen  la 
heteroscedasticidad,  se  debe  prestar  cuidadosa  atencion  a  las  propiedades  del  termino  de 
perturbation  de  estos  modelos.  Por  ejemplo,  el  modelo 

Yi  =  P\Xf2Ui  (1) 

puede  escribirse  como 

In  Yi  —  In  /Si  +  P2  In  Xj  +  In  w,  (2) 

a)  Si  In  Uj  tiene  valor  esperado  cero,  (',cual  debe  ser  la  distribucion  de  up. 

b )  Si  E(ui)  =  1,  ^,seraii(ln  m,)=  0?  ^,Por  que? 

c)  Si  E( In  m)  es  diferente  de  cero,  (',quc  puede  hacer  para  volverlo  cero? 

11.5.  Muestre  que  ySj  de  (11.3.8)  tambien  se  expresa  como 


E  wiyfxf 

E  w‘xf* 


y  var  ( dada  en  (1 1.3.9)  tambien  se  expresa  como 


var {P2)  — 


2* 


donde  y*  —  Yt  —  Y*  y  x*  —  Xj  —  X*  representan  las  desviaciones  en  relacion  con  las 
medias  ponderadas  Y*  y  X*  definidas  como 

rm  =  'Ew*Yi/T,Wi 
X*  =  J2W‘Xi/llW‘ 

1 1 .6.  Con  propositos  pedagogicos,  Hanushek  y  Jackson  estiman  el  siguiente  modelo: 


Ct  =  fa  +  P2PNBt+foDt+Ui  (1) 

donde  C,  —  gasto  agregado  de  consumo  privado  en  el  ano  t,  PNB,  =  producto  nacional 
bruto  en  el  aiio  t  y  D,  —  gastos  de  defensa  nacional  en  el  ano  t,  con  el  objetivo  de  estudiar 
el  efecto  de  los  gastos  de  defensa  sobre  otros  gastos  en  la  economia. 

Los  autores  postulan  que  er,2  =  o2( PNB, )2,  luego  transforman  (1)  y  estiman 


C,/PIB,  =  fa  (l/PIB,)  +  P2  +  P3  (A/PIB,)  +  «,/PIB, 


(2) 
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Los  resultados  emplricos  basados  en  la  informacion  de  1946  a  1975  fueron  los  siguien- 
tes  (errores  estandar  entre  parentesis):* 

C,  =  26.19  +  0.6248  PNB,  -  0.4398  A 

(2.73)  (0.0060)  (0.0736)  R2  =  0.999 

Q/PNB,  =  25.92 (1/PNB,)  +  0.6246  -  0.4315 (D, /PNB,) 

(2.22)  (0.0068)  (0.0597)  R2  =  0.875 


a )  ^Que  supuesto  hacen  los  autores  sobre  la  naturaleza  de  la  heteroscedasticidad?  /.Pucde 
justificarlo? 

b )  Compare  los  resultados  de  las  dos  regresiones.  (',La  transformacion  del  modelo 
original  mejora  los  resultados,  es  decir,  reduce  los  errores  estandar  estimados? 
^Por  que? 

c)  £  Puede  comparar  los  dos  valores  de  R2?  (',Por  que?  ( Sugerencia :  Examine  las  variables 
dependientes.) 

1 1 .7.  Consulte  las  regresiones  estimadas  (1 1 .6.2)  y  (1 1.6.3).  Los  resultados  de  la  regresion  son 
muy  similares.  ;,A  que  se  debe  esta  conclusion? 

11.8.  Pruebe  que  si  w,-  =  w,  una  constante,  para  cada  i,  (J>2  y  fii  son  identicos,  as!  como  sus 
varianzas. 

1 1.9.  Consulte  las  formulas  (1 1.2.2)  y  (11.2.3),  y  suponga  que 

cr2  =  a2ki 

donde  a 2  es  una  constante  y  k,  son  ponderaciones  conocidas,  no  necesariamente  todas 
iguales. 

Con  este  supuesto,  muestre  que  la  varianza  dada  en  (1 1.2.2)  se  expresa  como 


var (P2)  = 


Hxfki 

£*? 


El  primer  termino  del  miembro  derecho  es  la  formula  de  la  varianza  dada  en  (11.2.3), 
es  decir,  var  (/S|)  con  homoscedasticidad.  (',Quc  puede  decir  sobre  la  naturaleza  de  la 
relacion  entre  var  (/h)  con  heteroscedasticidad  y  con  homoscedasticidad?  ( Sugerencia : 
Examine,  en  la  formula  anterior,  el  segundo  termino  del  miembro  derecho.)  Puede  deri- 
var  alguna  conclusion  general  sobre  las  relaciones  entre  (1 1.2.2)  y  (1 1.2.3)? 

11.10.  En  el  modelo 


Yj  —  fa Xj  +  Hi  (Nota:  No  hay  intercepto) 
se  le  informa  que  var(w,)  =  a2X2.  Demuestre  que 


var(/?2)  = 


(£4)2 


*  Eric  A.  Hanushek  y  John  E.  Jackson,  Statistical  Methods  for  Social  Scientists,  Academic,  Nueva  York,  1 977, 

p.  160. 
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Ejercicios  empfricos 

11.11.  Con  la  informacion  de  la  tabla  11.1,  efectue  la  regresion  de  la  remuneracion  salarial  pro- 
medio  Y  sobre  la  productividad  promedio  X,  y  considere  el  tamano  de  la  planta  laboral 
como  unidad  de  observacion.  Interprete  sus  resultados  y  vea  si  estan  de  acuerdo  con  los 
presentados  en  (11.5.3). 

a)  De  la  regresion  anterior,  obtenga  los  residuos  u,. 

b)  Segun  la  prueba  de  Park,  efectue  la  regresion  de  In  h,  sobre  In  X,  y  verifique  la  regre¬ 
sion  (1 1.5.4). 

c)  Segun  el  metodo  de  Glejser,  efectue  la  regresion  de  |m,|  sobre  Xj  y  luego  la  regresion 
de  \iii\  sobre  */Xi.  Comente  sus  resultados. 

d )  Encuentre  la  correlation  de  orden  entre  \u,\  y  y  comente  sobre  la  naturaleza  de  la 
heteroscedasticidad  presente  en  los  datos,  si  existe. 

11.12.  La  tabla  1 1 .6  presenta  informacion  sobre  la  razon  ventas/efectivo  en  las  industrias  manu- 
factureras  de  Estados  Unidos,  clasificadas  por  tamano  de  activos  del  establecimiento  de 
1971-1  a  1973-IV  (Informacion  trimestral.)  La  razon  ventas/efectivo  puede  considerarse 
una  medida  de  la  velocidad  del  ingreso  en  el  sector  empresarial,  es  decir,  el  numero  de 
veces  que  circula  un  dolar. 

a)  Por  cada  tamano  de  activos,  calcule  la  media  y  la  desviacion  estandar  de  la  razon 
ventas/efectivo. 

b)  Grafique  el  valor  de  la  media  frente  a  la  desviacion  estandar  obtenida  en  a),  con  el 
tamano  de  activos  como  unidad  de  observacion. 

c)  Con  un  modelo  de  regresion  apropiado,  determine  si  la  desviacion  estandar  de  la  razon 
se  incrementa  con  el  valor  de  la  media.  De  no  ser  asi,  (.como  interpreta  el  resultado? 

d)  Si  hay  una  relation  estadisticamente  significativa  entre  los  dos,  icomo  transformaria 
la  informacion  de  manera  que  no  haya  heteroscedasticidad? 


11.13. 


Prueba  de  homogeneidad  de  varianza  de  Bartlett.  *  Suponga  que  hay  k  varianzas  mues- 
trales  independientes  sj,  s\, . . . ,  s\  con  cada  una  proveniente  de  poblacio- 

nes  normalmente  distribuidas  con  media  /i  y  varianza  er2.  Suponga  ademas  que  deseamos 
probar  la  hipotesis  nula  I Iq :  of  =  cr22  =  ■  ■  ■  =  a2  =  a2;  es  decir,  cada  varianza  muestral 
es  una  estimacion  de  la  misma  varianza  poblacional  a2. 

Si  la  hipotesis  nula  es  verdadera,  entonces 

k 


s 


2 


EM 

;=i 

~ef 


TABLA  11.6 

Tamano  de  activos 
(millones  de  dolares) 

Fuente:  Quarterly  Financial 
Report  for  Manufacturing 
Corporations,  Federal  Trade 
Commission  y  Securities  and 
Exchange  Commission,  gobierno 
de  Estados  Unidos,  variables 
sobre  diversos  temas  (calculadas). 


Ano  y 
trimestre 

1-10 

10-25 

25-50 

50-100 

100-250 

250-1  000 

1  000  + 

1971-1 

6.696 

6.929 

6.858 

6.966 

7.819 

7.557 

7.860 

-II 

6.826 

7.311 

7.299 

7.081 

7.907 

7.685 

7.351 

-III 

6.338 

7.035 

7.082 

7.145 

7.691 

7.309 

7.088 

-IV 

6.272 

6.265 

6.874 

6.485 

6.778 

7.120 

6.765 

1972-1 

6.692 

6.236 

7.101 

7.060 

7.104 

7.584 

6.717 

-II 

6.818 

7.010 

7.719 

7.009 

8.064 

7.457 

7.280 

-III 

6.783 

6.934 

7.182 

6.923 

7.784 

7.142 

6.619 

-IV 

6.779 

6.988 

6.531 

7.146 

7.279 

6.928 

6.919 

1973-1 

7.291 

7.428 

7.272 

7.571 

7.583 

7.053 

6.630 

-II 

7.766 

9.071 

7.818 

8.692 

8.608 

7.571 

6.805 

-III 

7.733 

8.357 

8.090 

8.357 

7.680 

7.654 

6.772 

-IV 

8.316 

7.621 

7.766 

7.867 

7.666 

7.380 

7.072 

*  Vease  "Properties  of  Sufficiency  and  Statistical  Tests",  Proceedings  of  the  Royal  Society  of  London  A,  vol.  1 60, 
1937,  p.268. 
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constituye  una  estimation  de  la  estimation  comun  (agrupada)  de  la  varianza  poblacional 
a2,  donde  f  =  (n,  —  1),  con  n,  como  el  numero  de  observaciones  en  el  i-esimo  grupo  y 
donde  /  =  £?=i  f. 

Bartlett  demostro  que  la  hipotesis  nula  se  prueba  por  la  razon  A/B.  distribuida  aproxi- 
madamente  como  la  distribucion  x2  con  k  —  1  gl,  donde 

a  =  f\ns2  -  (/; |ny,2) 


y 


5  =  1  + 


l 

3(*-  1) 


1 ' 
7. 


Aplique  la  prueba  de  Bartlett  a  los  datos  de  la  tabla  1 1 . 1  y  verifique  que  no  se  puede 
rechazar  la  hipotesis  de  que  las  varianzas  poblacionales  de  la  remuneracion  salarial  son 
las  mismas  para  cada  tamano  de  la  planta  laboral  del  establecimiento,  en  el  nivel  de  sig- 
nificancia  de  5%. 

Nota:  f,  los  gl  para  cada  varianza  muestral,  es  9,  pues  n,  para  cada  muestra  (es  decir, 
clase  de  empleados)  es  10. 

1 1.14.  Considere  el  siguiente  modelo  de  regresion  a  traves  del  origen: 


Yj  —  fix,  +  Uj,  para  i  —  1,2 

Se  tiene  que  U\  ~  N{ 0,  a2)  y  u 2  ~  A^(0,  2<r2),  y  que  son  estadisticamente  independientes. 
SiXi  =  + 1  y  X2  —  —  1,  obtenga  la  estimacion  por  minimos  cuadrados  ponderados  (MCP) 
de  ft  y  su  varianza.  Si  en  esta  situacion  supuso  de  manera  incorrecta  que  la  dos  varian¬ 
zas  de  los  errores  son  iguales  (por  ejemplo,  iguales  a  a2),  /.cual  seria  el  estimador  de 
MCO  de  /??,  iy  su  varianza?  Compare  estas  estimaciones  con  las  obtenidas  por  el  metodo 
de  MCP.  ^Que  conclusion  general  deduce?* 

11.15.  La  tabla  11.7  proporciona  datos  sobre  81  automoviles  respecto  de  su  MPG  (millas  pro- 
medio  por  galon),  CF  (caballos  de  fuerza  de  su  motor),  VOL  (pies  cubicos  de  su  cabina), 
VM  (velocidad  maxima  en  millas  por  hora)  y  su  PS  (peso  del  vehiculo  en  cientos  de  lb). 

a)  Considere  el  siguiente  modelo: 

MPG,  =  ft  +  &VM,-  +  ftCF,  +&PS  t  +  m 

Estime  los  parametros  de  este  modelo  e  interprete  los  resultados.  Desde  el  punto  de 
vista  economico, , '.tiene  sentido? 

b )  /.Espcraria  que  la  varianza  del  error  en  el  modelo  anterior  sea  heteroscedastica?  ,',Por 
que? 

c)  Con  la  prueba  de  White  determine  si  la  varianza  de  error  es  heteroscedastica. 

d)  Obtenga  los  errores  estandar  de  White  consistentes  con  la  heteroscedasticidad,  asi 
como  los  valores  t,  y  compare  los  resultados  con  los  obtenidos  mediante  MCO. 

e)  Si  se  establece  heteroscedasticidad,  ^como  puede  transformar  los  datos  de  manera 
que  en  los  datos  transformados  la  varianza  del  error  sea  homoscedastica?  Muestre  los 
calculos  necesarios. 

11.16.  Gasto  alimentario  en  India.  En  la  tabla  2.8  se  proporcionaron  datos  sobre  el  gasto  en 
alimentos  y  el  gasto  total  de  55  familias  de  India. 

a)  Haga  la  regresion  del  gasto  alimentario  sobre  el  gasto  total  y  examine  los  residuos 
obtenidos  en  dicha  regresion. 

b )  Grafique  los  residuos  obtenidos  en  el  inciso  a)  contra  el  gasto  total  y  verifique  si 
existe  algun  patron  sistematico. 


Adaptado  de  F.A.F.  Seber,  Linear  Regression  Analysis,  John  Wiley  &  Sons,  Nueva  York,  1 977,  p.  64. 
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TABLA  11.7  Datos  de  millajes  de  automoviles  de  pasajeros 


Observacion 

MPG 

VM 

CF 

VOL 

PS 

Observacion 

MPG 

VM 

CF 

VOL 

PS 

1 

65.4 

96 

49 

89 

17.5 

42 

32.2 

106 

95 

106 

30.0 

2 

56.0 

97 

55 

92 

20.0 

43 

32.2 

109 

102 

92 

30.0 

3 

55.9 

97 

55 

92 

20.0 

44 

32.2 

106 

95 

88 

30.0 

4 

49.0 

105 

70 

92 

20.0 

45 

31.5 

105 

93 

102 

30.0 

5 

46.5 

96 

53 

92 

20.0 

46 

31.5 

108 

100 

99 

30.0 

6 

46.2 

105 

70 

89 

20.0 

47 

31.4 

108 

100 

111 

30.0 

7 

45.4 

97 

55 

92 

20.0 

48 

31.4 

107 

98 

103 

30.0 

8 

59.2 

98 

62 

50 

22.5 

49 

31.2 

120 

130 

86 

30.0 

9 

53.3 

98 

62 

50 

22.5 

50 

33.7 

109 

115 

101 

35.0 

10 

43.4 

107 

80 

94 

22.5 

51 

32.6 

109 

115 

101 

35.0 

11 

41.1 

103 

73 

89 

22.5 

52 

31.3 

109 

115 

101 

35.0 

12 

40.9 

113 

92 

50 

22.5 

53 

31.3 

109 

115 

124 

35.0 

13 

40.9 

113 

92 

99 

22.5 

54 

30.4 

133 

180 

113 

35.0 

14 

40.4 

103 

73 

89 

22.5 

55 

28.9 

125 

160 

113 

35.0 

15 

39.6 

100 

66 

89 

22.5 

56 

28.0 

115 

130 

124 

35.0 

16 

39.3 

103 

73 

89 

22.5 

57 

28.0 

102 

96 

92 

35.0 

17 

38.9 

106 

78 

91 

22.5 

58 

28.0 

109 

115 

101 

35.0 

18 

38.8 

113 

92 

50 

22.5 

59 

28.0 

104 

100 

94 

35.0 

19 

38.2 

106 

78 

91 

22.5 

60 

28.0 

105 

100 

115 

35.0 

20 

42.2 

109 

90 

103 

25.0 

61 

27.7 

120 

145 

111 

35.0 

21 

40.9 

110 

92 

99 

25.0 

62 

25.6 

107 

120 

116 

40.0 

22 

40.7 

101 

74 

107 

25.0 

63 

25.3 

114 

140 

131 

40.0 

23 

40.0 

111 

95 

101 

25.0 

64 

23.9 

114 

140 

123 

40.0 

24 

39.3 

105 

81 

96 

25.0 

65 

23.6 

117 

150 

121 

40.0 

25 

38.8 

111 

95 

89 

25.0 

66 

23.6 

122 

165 

50 

40.0 

26 

38.4 

110 

92 

50 

25.0 

67 

23.6 

122 

165 

114 

40.0 

27 

38.4 

110 

92 

117 

25.0 

68 

23.6 

122 

165 

127 

40.0 

28 

38.4 

110 

92 

99 

25.0 

69 

23.6 

122 

165 

123 

40.0 

29 

46.9 

90 

52 

104 

27.5 

70 

23.5 

148 

245 

112 

40.0 

30 

36.3 

112 

103 

107 

27.5 

71 

23.4 

160 

280 

50 

40.0 

31 

36.1 

103 

84 

114 

27.5 

72 

23.4 

121 

162 

135 

40.0 

32 

36.1 

103 

84 

101 

27.5 

73 

23.1 

121 

162 

132 

40.0 

33 

35.4 

111 

102 

97 

27.5 

74 

22.9 

110 

140 

160 

45.0 

34 

35.3 

111 

102 

113 

27.5 

75 

22.9 

110 

140 

129 

45.0 

35 

35.1 

102 

81 

101 

27.5 

76 

19.5 

121 

175 

129 

45.0 

36 

35.1 

106 

90 

98 

27.5 

77 

18.1 

165 

322 

50 

45.0 

37 

35.0 

106 

90 

88 

27.5 

78 

17.2 

140 

238 

115 

45.0 

38 

33.2 

109 

102 

86 

30.0 

79 

17.0 

147 

263 

50 

45.0 

39 

32.9 

109 

102 

86 

30.0 

80 

16.7 

157 

295 

119 

45.0 

40 

32.3 

120 

130 

92 

30.0 

81 

13.2 

130 

236 

107 

55.0 

41 

32.2 

106 

95 

113 

30.0 

Notas: 

VOL  =  pies  cubicos  del  espacio  de  cabina 
CF  =  caballos  de  fuerza  del  motor 
MPG  =  millas  promedio  por  galon 
VM  =  velocidad  maxima,  millas  por  hora 
PS  =  peso  del  vehiculo,  cientos  de  libras 

Observacion  =  numero  de  observaciones  del  automovil  (el  nombre  de  los  vehiculos  no  se  proporciona). 


Fuente:  U.S.  Environmental  Protection  Agency,  1991,  Informe  EPA/AA/CTAB/91-02. 


Capftulo  1 1  Heteroscedasticidad:  i que pasa  si  la  varianza  del  error  no  es  constante?  407 


c)  Si  la  grafica  del  inciso  b)  sugiere  heteroscedasticidad,  aplique  las  pruebas  de  Park, 
Glejser  y  White  para  determinar  si  la  sensacion  respecto  de  la  heteroscedasticidad 
observada  en  b )  se  sustenta  con  estas  pruebas. 

d)  Obtenga  los  errores  estandar  de  White  consistentes  con  la  heteroscedasticidad  y  com- 
parelos  con  los  errores  estandar  de  MCO.  Decida  si  vale  la  pena  corregir  este  ejemplo 
a  causa  de  la  heteroscedasticidad. 

11.17.  Repita  el  ejercicio  11.16,  pero  en  esta  ocasion  efectue  la  regresion  del  logaritmo  del  gasto 
alimentario  sobre  el  logaritmo  del  gasto  total.  Si  observa  heteroscedasticidad  en  el  mo- 
delo  lineal  del  ejercicio  11.16  pero  no  en  el  modelo  log-lineal,  (',a  que  conclusion  llega? 
Muestre  todos  los  calculos  necesarios. 

11.18.  Un  atajo  de  la  prueba  de  White.  Como  mencionamos  en  el  texto,  la  prueba  de  White 
consume  grados  de  libertad  si  existen  varias  regresoras  y  se  introducen  todas  las  regre- 
soras,  sus  terminos  cuadrados  y  sus  productos  cruzados.  Por  consiguiente,  en  vez  de 
estimar  las  regresiones  como  la  (1 1.5.22),  (',por  que  no  simplemente  efectua  la  siguiente 
regresion? 

uj  —  a\  +  a2Yt  +a2  L,2  +  vt 

donde  L,  son  los  valores  estimados  Y  (es  decir,  la  regresada)  de  cualquier  modelo  que  se 
calcule.  Despues  de  todo,  Y,  es  tan  solo  el  promedio  ponderado  de  las  regresoras,  donde 
los  coeficientes  estimados  de  la  regresion  sirven  como  ponderaciones. 

Obtenga  el  valor  R 2  de  la  regresion  anterior  y  utilice  (1 1 .5.22)  para  probar  la  hipotesis 
de  que  no  existe  heteroscedasticidad. 

Aplique  la  prueba  anterior  al  ejemplo  de  gasto  alimentario  del  ejercicio  1 1 .6. 

11.19.  Reconsidere  el  ejemplo  sobre  IyD  de  la  seccion  1 1.7.  Repita  ese  ejemplo  con  las  ganan- 
cias  como  la  regresora.  A  priori,  ^esperaria  que  los  resultados  fuesen  diferentes  de  los  que 
utilizan  las  ventas  como  regresoras?,  <,por  que? 

11.20.  La  tabla  11.8  proporciona  datos  sobre  la  mediana  de  los  salarios  de  catedraticos  en  es- 
tadistica  que  laboraron  en  centres  universitarios  de  investigacion  de  Estados  Unidos 
durante  el  ano  academico  2007. 

a)  Grafique  la  mediana  de  los  salarios  respecto  de  los  rangos  de  anos  (como  medida 
de  los  anos  de  experiencia).  Para  propositos  de  la  grafica,  suponga  que  la  mediana  de 
los  salarios  esta  referida  al  punto  medio  del  rango  de  anos  correpondiente.  Por  con¬ 
siguiente,  el  salario  de  $124  578  del  rango  4-5  esta  referido  a  4.5  anos  del  rango 
correspondiente,  y  asi  sucesivamente.  Para  el  ultimo  grupo,  suponga  que  el  rango  es 
31-33. 

b)  Considere  los  siguientes  modelos  de  regresion: 


Yj  —  oi\  +  oi2Xi  +  Uj 

0) 

=  Pi  +  Pi  Xi  +  PlXj  +  Vi 

(2) 

TABLA  11.8 

Mediana  de  los  salarios 

Rango  de  anos 

Cuenta 

Mediana 

de  los  catedraticos  en 

0  a  1 

40 

$101  478 

estadlstica,  2007 

2  a  3 

24 

1 02  400 

4  a  5 

35 

124  578 

Fuente:  American  Statistical 

6  a  7 

34 

122  850 

Association,  “2007  Salary 

8  a  9 

33 

116  900 

Report”. 

10  a  14 

73 

119  465 

15  a  19 

69 

114  900 

20  a  24 

54 

129  072 

25  a  30 

44 

131  704 

31  o  mas 

25 

143  000 
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donde  Y  —  mediana  del  salario,  X  =  ano  en  el  rango  (medido  como  el  punto  medio 
del  intervalo),  y  u  y  v  son  los  terminos  de  error.  /.Pucde  justificar  por  que  el  modelo 
(2)  seria  preferible  al  modelo  (1)?  A  partir  de  estos  datos,  estime  los  modelos. 

c)  Si  observa  heteroscedasticidad  en  el  modelo  (1)  pero  no  en  el  modelo  (2),  (;a  que 
conclusiones  llega?  Muestre  los  calculos  necesarios. 

d )  Si  observa  heteroscedasticidad  en  el  modelo  (2),  /.como  puede  transformar  los  datos 
de  manera  que  en  el  modelo  transformado  no  existiera  heteroscedasticidad? 

11.21.  Tiene  la  siguiente  informacion: 

SCRi  basado  en  las  primeras  30  observaciones  =  55,  gl  =  25 
SCR2  basado  en  las  ultimas  30  observaciones  =  140,  gl  =  25 

Realice  la  prueba  de  heteroscedasticidad  de  Goldfeld-Quandt  en  el  nivel  de  significancia 

de  5%. 

1 1.22.  La  tabla  1 1.9  presenta  informacion  acerca  de  los  precios  de  acciones  (7)  y  los  precios  al 

consumidor  ( X )  expresados  en  cambios  porcentuales  anuales  para  un  corte  transversal  de 

20  paises. 

a)  Grafique  los  datos  en  un  diagrama  de  dispersion. 

b)  Efectue  la  regresion  de  Y  sobre  X  y  examine  los  residuos  de  esta  regresion.  (',Quc  ob¬ 
serva? 

c)  Como  los  datos  de  Chile  parecen  atipicos,  repita  la  regresion  en  b)  sin  la  informacion 
sobre  Chile.  Ahora  examine  los  residuos  de  esta  regresion.  /.Que  observa? 

d)  Si,  con  base  en  los  resultados  de  b),  concluye  que  hubo  heteroscedasticidad  en  la 
varianza  del  error,  pero  con  base  en  los  resultados  de  c)  modifica  este  resultado,  /,que 
conclusiones  generates  obtiene? 


TABLA  11.9 

Precios  de  acciones  y 
precios  al  consumidor, 
periodo  posterior  a  la 
Segunda  Guerra 
Mundial  (hasta  1969) 

Fuente:  Phillip  Cagan,  Common 
Stock  Values  and  Inflation:  The 
Historical  Record  of  Many 
Countries,  National  Bureau  of 
Economic  Research,  suplemento, 
marzo  de  1974,  tabla  1,  p.  4. 


Tasa  de  crecimiento,  %  anual 


Pais 

1 .  Australia 

2.  Austria 

3.  Belgica 

4.  Canada 

5.  Chile 

6.  Dinamarca 

7.  Finlandia 

8.  Francia 

9.  Alemania 

10.  India 

1 1 .  Irlanda 

12.  Israel 
1  3.  Italia 

1 4.  Japon 

15.  Mexico 

1 6.  Paises  Bajos 

1  7.  Nueva  Zelanda 

1 8.  Suecia 

1 9.  Reino  Unido 

20.  Estados  Unidos 


Precio  de  acciones, 
Y 

5.0 

11.1 

3.2 

7.9 

25.5 

3.8 
11.1 

9.9 
13.3 

1.5 

6.4 

8.9 
8.1 

13.5 
4.7 

7.5 
4.7 
8.0 

7.5 
9.0 


Precio  al  consumidor, 
X 

4.3 

4.6 

2.4 

2.4 

26.4 

4.2 

5.5 

4.7 

2.2 
4.0 
4.0 

8.4 
3.3 
4.7 
5.2 

3.6 
3.6 
4.0 
3.9 
2.1 
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11.23  La  tabla  1 1 . 1 0  del  sitio  Web  presenta  datos  sobre  salarios  y  otros  aspectos  relacionados  de 
447  ejecutivos  de  500  empresas  de  Fortune.  Los  datos  incluyen  salario  =  salario  y  grati- 
ficaciones  de  1999;  remtot  =  remuneracion  total  del  director  general  en  1999;  antigiie- 
dad  =  ntimero  de  anos  como  director  general  (0  si  tiene  menos  de  6  meses  en  el  cargo); 
edad  =  edad  del  director  general;  ventas  =  total  de  los  ingresos  por  ventas  de  la  empresa 
en  1998;  utilidades  =  utilidades  de  la  empresa  en  1998;  y  activos  =  total  de  activos  de 
la  empresa  en  1998. 

a)  Estime  la  siguiente  regresion  con  base  en  estos  datos  y  obtenga  el  estadistico  de 
Breusch-Pagan-Godfrey  para  ver  si  hay  heteroscedasticidad: 

salario,-  =  /h  +  /^antigiiedad,  +  ftedad,  4-  ^ventas,-  +  /^utilidades,-  +  /Sgactivos,  +  w,- 
^Parece  existir  un  problema  de  heteroscedasticidad? 

b )  Ahora  cree  un  segundo  modelo  con  ln(salario)  como  variable  dependiente.  /Obscrva 
alguna  mejora  en  la  heteroscedasticidad? 

c)  Cree  diagramas  de  dispersion  del  salario  sobre  cada  variable  independiente.  ^Puede 
discernir  que  variables  contribuyen  al  problema?  ^Que  propondria  ahora  para  resol- 
verlo?  ,',Cual  es  el  modelo  final? 


Apendice  1 1 A 


11A.1  Prueba  de  la  ecuacion  (11.2.2) 


Del  apendice  3  A,  seccion  3A.3,  tenemos 

r  m  =  E{. 

=  E  (k\u\  +  k2u 


9  99  •  \ 

var(/32)  =  E[klul  +  k2u2  +  •  •  ■  +  knun  +  2  terminos  de  productos  cruzados) 


2  4 - 1-  k^ul'j 


pues  los  valores  esperados  de  los  terminos  de  productos  cruzados  son  cero  debido  al  supuesto  de  no  corre- 
lacion  serial, 

var(/f2)  =  k\E[u2^  +  k%E(u£)  4 - f  k%E(u^j 

porque  se  conocen  las  kt.  (^Por  que?) 


var(/S2)  =  kjcr2  4-  k2o2  4 - b  k^o2 


pues  E(u2)  =  a2. 


r(A0  = 


=  E 


)  2 

E*,V  ‘ 


pues  ki  = 


Xi 

I>,* 2 


{Exf) 


(11.2.2) 


11A.2  Metodo  de  rmnimos  cuadrados  ponderados 


Para  ilustrar  el  metodo  utilizamos  el  modelo  de  dos  variables  Yt=  f}\  4-  /LA,  4-  m,.  El  metodo  de  mlnimos 
cuadrados  no  ponderado  reduce 


y>?  =  Yjji-fr-hXif 


(i) 
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para  obtener  las  estimaciones,  mientras  que  el  metodo  de  mlnimos  cuadrados  ponderados  reduce  la  suma  de 
cuadrados  ponderada  de  los  residuales: 

E  =  J2W‘(Y‘-  ft*  -  (2) 

donde  ft  y  ft  son  los  estimadores  de  mlnimos  cuadrados  ponderados  y  las  ponderaciones  w,-  son  tales  que 


es  decir,  las  ponderaciones  son  inversamente  proporcionales  a  la  varianza  de  «,■  o  Yt  condicional  a  las  ft 
dadas,  y  queda  entendido  que  var (tq  \Xj)  =  var(Y,-  |  ft)  =  of. 

A1  diferenciar  (2)  respecto  de  ft*  y  ft,  obtenemos 


3  Ewift 

3ft* 

3Ew-ft 

3ft 


2£>,-(^-ft*-ftX,)(  — 1) 

2£>i(K«  -ft  -ftX/X-X,) 


Igualamos  a  cero  las  expresiones  anteriores  y  obtenemos  las  dos  siguientes  ecuaciones  normales: 


J2w<Y‘ 

=  ftI>  +  ftX>'xi 

(4) 

=  p*lj2w‘x<+feJ2w'x? 

(5) 

Observe  la  semejanza  entre  estas  ecuaciones  normales  y  las  ecuaciones  normales  de  los  mlnimos  cuadrados 
no  ponderados. 

Resolvemos  estas  ecuaciones  simultaneamente  y  obtenemos 

ft*  =  Y*  -  ft!*  (6) 


y 


^■ftft) 

l-i 

W;ft) 

(Ew<^) 

( 

Em-) 

i-l 

[Ewix>) 

2 

1 

(11.3.8)  =  (7) 


La  varianza  de  ft  que  aparece  en  (1 1.3.9)  se  obtiene  en  la  forma  de  la  varianza  de  ft  que  aparece  en  el 
apendice  3  A,  seccion  3 A. 3. 

Nota:  Y*  =  w,-  Yt  /  Jfwi  y  X*  =  w/ft/  E  wi-  Como  se  verifica  facilmente,  estas  medias  pondera- 

das  coinciden  con  las  medias  usuales  o  sin  ponderar  Y  y  X  cuando  w,-  =  w,  una  constante,  para  todo  i. 


1 1  A.3  Prueba  de  que  E(a2)  ±  a2  en  presencia 
de  heteroscedasticidad 


Considere  el  modelo  de  dos  variables: 


Yi  —  Pi  +  ftft  +  ut 


donde  var  («,)  =  of. 
Ahora 


(1) 


.2  =  Eft  =  E(Yj  -  Y,)2  =  E[ft  +  feft  +  Ui  -  ft  -  ft  ft]2 

n  —2  n  —  2  n  —  2 

_  E[-(ft  -  fh)  -  (P2  -  fh)Xi  +  U,f 


(2) 


n  —  2 
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Observe  que  {fi\  —  /Si)  =—  (f)2  —  fi2)X  +  u,  y  sustituya  lo  anterior  en  (2);  al  tomar  las  esperanzas  en 
ambos  miembros,  tenemos: 


(3) 


donde  se  utiliza  (11.2.2). 

Como  puede  observar  de  (3),  si  existe  homoscedasticidad,  es  decir,  of  =  a2  para  cada  i,  E(o2)  =  a2. 


En  consecuencia,  el  valor  esperado  de  a2  =  Yf  “2/(«  —  2)  calculado  de  manera  convencional  no  sera  igual 
a  la  verdadera  a2  en  presencia  de  heteroscedasticidad.1 


1 1  A.4  Errores  estandar  robustos  de  White 


Para  dar  alguna  idea  respecto  de  los  errores  estandar  de  White  corregidos  por  heteroscedasticidad,  considere 
el  siguiente  modelo  de  regresion  de  dos  variables: 


Yj  =  ) Si  +  p2Xi  +  Uj  var  (ui)  =  of 


(1) 


Como  se  muestra  en  (1 1.2.2), 


(2) 


var(/)2)  = 


Como  of  no  son  directamente  observables,  White  sugiere  utilizar  u2,  el  residuo  al  cuadrado  para  cada  i,  en 
lugar  de  of,  y  calcular  var  (/l2)  de  la  siguiente  forma: 


(3) 


White  demostro  que  (3)  es  un  estimador  consistente  de  (2);  es  decir,  conforme  el  tamano  de  la  muestra  crece 
de  manera  indefinida,  (3)  converge  a  (2)  2 

A  proposito,  observe  que  si  el  paquete  de  software  utilizado  no  contiene  el  procedimiento  de  errores 
estandar  robustos  de  White,  se  puede  efectuar  como  se  muestra  en  (3):  primero  la  regresion  usual  por  MCO, 
despues  se  obtienen  los  residuos  de  esta  regresion  y  luego  se  utiliza  la  formula  (3). 

El  procedimiento  de  White  se  generaliza  al  modelo  de  regresion  de  k  variables: 


(4) 


Yi  —  fi\  +  fi2X2i  +  foX^i  +  ■  ■  •  +  PkXki  +  Ui 
La  varianza  de  todo  coeficiente  de  regresion  parcial,  por  ejemplo  fij,  se  obtiene  asi: 


(5) 


donde  son  los  residuos  obtenidos  de  la  regresion  original  (4),  y  wj  son  los  residuos  proporcionados  por  la 
regresion  (auxiliar)  de  la  regresora  Xj  sobre  las  regresoras  restantes  en  (4). 

Obvio,  es  un  procedimiento  tardado,  pues  se  debe  estimar  (5)  para  cada  variable  X.  Por  supuesto,  todo 
este  trabajo  se  evita  si  se  cuenta  con  un  software  estadistico  que  lo  haga  de  manera  rutinaria.  En  la  actuali- 
dad,  programas  como  PC-GIVE,  Eviews,  MICROFIT,  SHAZAM,  STATA  y  LIMDEP  calculan  de  manera 
muy  sencilla  los  errores  estandar  robustos  de  White  con  heteroscedasticidad. 


1  Se  pueden  obtener  mayores  detalles  en  Jan  Kmenta,  Elements  of  Econometrics,  2a.  ed.,  Macmillan,  Nueva 
York,  1 986,  pp.  276-278. 

2  Para  mayor  precision,  n  veces  (3)  converge  en  probabilidad  a  £[(X/  —  iux)2u2]/(er|)2,  que  es  la  proba- 
bilidad  limite  de  n  veces  (2),  donde  n  es  el  tamano  de  la  muestra,  px  es  el  valor  esperado  de  X  y  of  es  la 
varianza  (poblacional)  de  X.  Para  mayores  detalles,  vease  Jeffrey  M.  Wooldridge,  Introductory  Econometrics:  A 
Modern  Approach,  South-Western,  2000,  p.  250. 
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Autocorrelacion:  <;que 
pasa  si  los  terminos 
de  error  estan 
correlacionados? 


El  lector  quiza  recuerde  que  existen  tres  tipos  de  datos  disponibles  para  el  analisis  emplrico: 
1)  transversales,  2)  series  de  tiempo  y  3)  la  combination  de  ambos,  tambien  conocida  como  da¬ 
tos  agrupados.  A1  desarrollar  el  modelo  clasico  de  regresion  lineal  (MCRL),  en  la  parte  1, 
partimos  de  varios  supuestos,  que  se  analizaron  en  la  section  7.1.  No  obstante,  observamos  que 
no  todos  los  supuestos  se  cumplen  con  cualquier  tipo  de  datos.  De  hecho,  en  el  capitulo  anterior 
vimos  que  el  supuesto  de  la  homoscedasticidad,  o  varianza  de  error  igual,  no  siempre  se  sustenta 
en  los  datos  transversales.  En  otras  palabras,  los  datos  transversales  a  menudo  estan  plagados  de 
problemas  de  heteroscedasticidad. 

Sin  embargo,  en  los  estudios  transversales,  a  menudo  los  datos  se  recopilan  con  base  en  una 
muestra  aleatoria  de  unidades  transversales;  como  familias  (en  un  analisis  de  la  funcion  con- 
sumo)  o  empresas  (en  un  estudio  de  analisis  sobre  la  inversion),  de  modo  que  no  existe  razon 
previa  para  creer  que  el  termino  de  error  que  correspondiente  a  una  familia  o  a  una  empresa  este 
correlacionado  con  el  termino  de  error  de  otra  familia  o  empresa.  Si  por  casualidad  se  observa 
dicha  correlacion  en  unidades  transversales,  se  conoce  como  autocorrelacion  espacial;  es  decir, 
es  una  correlacion  en  el  espacio  mas  que  en  el  tiempo.  Sin  embargo,  es  importante  recordar  que 
en  el  analisis  transversal  la  ordenacion  de  los  datos  debe  tener  alguna  logica,  o  algun  interes  eco- 
nomico,  a  fin  de  que  cobre  sentido  la  conclusion  de  la  presencia  o  ausencia  de  autocorrelacion 
(espacial). 

No  obstante,  es  probable  que  la  situation  sea  muy  distinta  si  trabajamos  con  datos  de  series 
de  tiempo,  pues  las  observaciones  en  estos  datos  siguen  un  ordenamiento  natural  respecto  del 
tiempo,  de  modo  que  es  muy  posible  que  las  observaciones  sucesivas  muestren  intercorrela- 
ciones,  sobre  todo  si  el  intervalo  entre  observaciones  sucesivas  es  muy  corto,  como  un  dia,  una 
semana  o  un  mes,  en  lugar  de  un  ano.  Si  observa  los  indices  bursatiles,  como  el  Dow  Jones  o  el 
S&P  500  en  dias  sucesivos,  no  es  raro  que  descubra  que  dichos  indices  aumentan  o  disminuyen 
durante  varios  dias  sucesivos.  Obvio,  en  esta  clase  de  situaciones  se  viola  el  supuesto  del  MCRL 
en  cuanto  a  que  no  existe  autocorrelacion,  ni  correlacion  serial  en  los  terminos  de  error. 

En  este  capitulo  examinaremos  en  forma  critica  este  supuesto  con  el  fin  de  responder  las  si- 
guientes  preguntas: 

1 .  ^Cual  es  la  naturaleza  de  la  autocorrelacion? 

2.  ^Cuales  son  las  consecuencias  teoricas  y  practicas  de  la  autocorrelacion? 
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3.  Como  el  supuesto  de  no  autocorrelacion  se  relaciona  con  las  perturbaciones  no  observables 
uh  pcomo  saber  que  hay  autocorrelacion  en  una  situacion  dada?  Observe  que  ahora  usaremos 
el  subindice  t  para  destacar  que  los  datos  corresponden  a  series  de  tiempo. 

4.  pComo  remediar  el  problema  de  la  autocorrelacion? 

En  este  capitulo  el  lector  encontrara  similitudes  en  muchos  aspectos  con  el  anterior  sobre  he- 
teroscedasticidad,  pues,  en  presencia  tanto  de  autocorrelacion  como  de  heteroscedasticidad, 
los  estimadores  de  MCO  usuales,  a  pesar  de  ser  lineales,  insesgados  y  tener  distribution 
asintoticamente  normal  (es  decir,  en  muestras  grandes),1  dejan  de  tener  varianza  minima 
entre  todos  los  estimadores  lineales  insesgados.  En  resumen,  no  son  eficientes  en  relation 
con  los  demas  estimadores  lineales  e  insesgados.  Dicho  de  otro  modo,  es  posible  que  no  sean 
los  mejores  estimadores  lineales  insesgados  (MELI).  Como  resultado,  las  pruebas  usuales  t, 
F  y  x2  pueden  no  ser  validas. 


12.1  Naturaleza  del  problema 


El  termino  autocorrelacion  se  define  como  la  “correlacion  entre  miembros  de  series  de  observa- 
ciones  ordenadas  en  el  tiempo  [como  en  datos  de  series  de  tiempo]  o  en  el  espacio  [como  en  datos 
de  corte  transversal]”.2  En  el  contexto  de  regresion,  el  modelo  clasico  de  regresion  lineal  supone 
que  no  existe  tal  autocorrelacion  en  las  perturbaciones  u,.  Simbolicamente, 

co v(w,-,  uj\xj,Xj)  —  E(iijUj)  =  0  i  ^  j  (3.2.5) 

En  forma  sencilla,  el  modelo  clasico  supone  que  el  termino  de  perturbacion  relacionado  con  una 
observacion  cualquiera  no  recibe  influencia  del  termino  de  perturbacion  relacionado  con  cual- 
quier  otra  observacion.  Por  ejemplo,  si  tratamos  con  informacion  trimestral  de  series  de  tiem¬ 
po,  que  implica  una  regresion  de  la  produccion  sobre  los  insumos  trabajo  y  capital,  y  si,  por 
ejemplo,  hay  una  huelga  laboral  que  afecta  la  produccion  en  un  trimestre,  no  hay  razon  para  pen- 
sar  que  esta  interrupcion  afectara  la  produccion  del  trimestre  siguiente.  Es  decir,  si  la  produccion 
es  inferior  en  este  trimestre,  no  hay  razon  para  esperar  que  sea  baja  en  el  siguiente.  En  forma 
similar,  si  tratamos  con  informacion  de  corte  transversal  que  implica  la  regresion  del  gasto  de 
consumo  familiar  sobre  el  ingreso  familiar,  no  esperaremos  que  el  efecto  de  un  incremento  en  el 
ingreso  de  una  familia  sobre  su  gasto  de  consumo  incida  en  el  gasto  de  consumo  de  otra. 

Sin  embargo,  si  existe  tal  dependencia,  hay  autocorrelacion.  Simbolicamente, 

E(uiUj)  /0  i  /  j  (12.1.1) 

En  esta  situacion,  la  interrupcion  ocasionada  por  una  huelga  este  trimestre  puede  afectar  muy 
facilmente  la  produccion  del  siguiente  trimestre,  o  los  incrementos  del  gasto  de  consumo  de  una 
familia  pueden  muy  bien  inducir  a  otra  familia  a  aumentar  su  gasto  de  consumo  para  no  quedar 
rezagada. 

Antes  de  encontrar  la  razon  de  la  autocorrelacion  es  esencial  aclarar  la  terminologia.  Aunque 
hoy  en  dia  es  comun  tratar  como  sinonimos  los  terminos  autocorrelacion  y  correlacion  se¬ 
rial,  algunos  autores  prefieren  diferenciarlos.  Por  ejemplo,  Tintner  define  autocorrelacion  como 
“correlacion  rezagada  de  una  serie  dada  consigo  misma,  rezagada  por  un  niimero  de  unidades 
de  tiempo”,  mientras  que  reserva  el  termino  correlacion  serial  para  “correlacion  rezagada  entre 


1  Al  respecto,  vease  William  H.  Greene,  Econometric  Analysis,  4a.  ed.,  Prentice  Hall,  Nueva  Jersey,  2000,  cap. 
1 1,  y  Paul  A.  Rudd,  An  Introduction  to  Classical  Econometric  Theory,  Oxford  University  Press,  2000,  cap.  19. 

2  Maurice  G.  Kendall  y  William  R.  Buckland,  A  Dictionary  of  Statistical  Terms,  Hafner  Publishing  Company, 
Nueva  York,  1 971 ,  p.  8. 
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dos  series  diferentes”.3  Asi,  la  correlacion  entre  dos  series  de  tiempo  como  u\,  u2, .  .  . ,  u\a  y  U2, 
M3, ,  Mu,  donde  la  primera  es  igual  a  la  ultima  rezagada  un  periodo,  es  autocorrelacion,  mien- 
tras  que  la  correlacion  entre  dos  series  de  tiempo  como  u\,  M2, ... ,  mio  y  V2,  V3, . . . ,  vn,  donde  u  y 
v  son  dos  series  de  tiempo  diferentes,  se  denomina  correlacion  serial.  Aunque  la  distincion  entre 
ambos  puede  ser  util,  en  este  libro  los  consideraremos  sinonimos. 

Visualicemos  algunos  patrones  razonables  de  autocorrelacion  y  de  no  autocorrelacion  de  la 
figura  12.1.  Las  figuras  12.1a)  a  d)  muestran  un  patron  distinguible  entre  las  u.  La  figura  12.1a) 
muestra  un  patron  ciclico;  las  figuras  12.1b)  y  c)  sugieren  una  tendencia  lineal  hacia  arriba  o 
hacia  abajo  en  las  perturbaciones;  y  la  figura  12.  Id)  indica  que  hay  terminos  de  tendencia  tanto 
lineal  como  cuadratica  en  las  perturbaciones.  Solo  la  figura  12.  le)  indica  que  no  hay  un  patron  sis- 
tematico,  y  apoya  asi  el  supuesto  de  no  autocorrelacion  del  modelo  clasico  de  regresion  lineal. 

La  pregunta  natural  es:  (',por  que  ocurre  la  correlacion  serial?  Hay  diversas  razones,  algunas 
de  las  cuales  son  las  siguientes: 

Inercia 

Una  caracteristica  relevante  de  la  mayoria  de  las  series  de  tiempo  economicas  es  la  inercia  o 
pasividad.  Como  bien  se  sabe,  las  series  de  tiempo  como  PNB,  indices  de  precios,  produccion, 
empleo  y  desempleo  presentan  ciclos  (economicos).  A  partir  del  fondo  de  la  recesion,  cuando 
se  inicia  la  recuperation  economica,  la  mayoria  de  estas  series  empieza  a  moverse  hacia  arriba. 
En  este  movimiento  ascendente,  el  valor  de  una  serie  en  un  punto  del  tiempo  es  mayor  que  su 
valor  anterior.  Asi,  se  genera  un  “impulso”  en  ellas,  y  continuara  hasta  que  suceda  otra  cosa 
(por  ejemplo,  un  aumento  en  la  tasa  de  interes  o  en  los  impuestos,  o  ambos)  para  reducirlo.  Por 
consiguiente,  es  probable  que,  en  las  regresiones  que  consideran  datos  de  series  de  tiempo,  las 
observaciones  sucesivas  sean  interdependientes. 

Sesgo  de  especificacion:  caso  de  variables  excluidas 

En  el  analisis  empirico,  con  frecuencia  el  investigador  empieza  con  un  modelo  de  regresion  ra- 
zonable  que  puede  no  ser  “perfecto”.  Despues  del  analisis  de  regresion,  el  investigador  haria  el 
examen  post  mortem  para  ver  si  los  resultados  coinciden  con  las  expectativas  a  priori.  De  no  ser 
asi,  iniciaria  “la  cirugia”.  Por  ejemplo,  el  investigador  graficaria  los  residuos  m,  obtenidos  de  la 
regresion  ajustada  y  observaria  patrones  como  los  de  las  figuras  12.1a)  a  d).  Estos  residuos  (re- 
presentaciones  de  las  m,)  pueden  sugerir  la  inclusion  de  algunas  variables  originalmente  can- 
didatas  pero  que  no  se  incluyeron  en  el  modelo  por  diversas  razones.  Es  el  caso  del  sesgo  de 
especificacion  ocasionado  por  variables  excluidas.  Con  frecuencia,  la  inclusion  de  tales  varia¬ 
bles  elimina  el  patron  de  correlacion  observado  entre  los  residuales.  Por  ejemplo,  suponga  que 
tenemos  el  siguiente  modelo  de  demanda: 

Y,=P  1  +  fhXlt  +  hXv  +  +  ut  (1 2.1.2) 

donde  Y  —  cantidad  de  carne  de  res  demandada,  X2  —  precio  de  la  carne  de  res,  A3  =  ingreso  del 
consumidor,  X4  —  precio  del  cerdo  y  t—  tiempo.4  Sin  embargo,  por  alguna  razon  efectuamos  la 
siguiente  regresion: 

Y,=Pi+  p2X2t  +  foXi,  +  vt  (12.1.3) 

Ahora,  si  ( 12. 1 .2)  es  el  modelo  “correcto”,  el  “verdadero”  o  la  relacion  verdadera,  efectuar  (12. 1 .3) 
equivale  a  permitir  que  v,  —  P4X4,  +  ut.  Asi,  en  la  medida  en  que  el  precio  del  cerdo  afecte  el 
consumo  de  carne  de  res,  el  termino  de  error  o  de  perturbacion  v  reflejara  un  patron  sistematico, 


3  Gerhard  Tintner,  Econometrics,  John  Wiley  &  Sons,  Nueva  York,  1965. 

4  Por  convencion,  utilizaremos  el  subfndice  t  para  denotar  informacion  de  series  de  tiempo  y  el  subfndice 
usual  i  para  datos  de  corte  transversal. 
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FIGURA  12.1 

Patrones  de  autocorrela¬ 
tion  y  no  autocorrelation. 
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lo  que  crea  (una  falsa)  autocorrelation.  Una  prueba  sencilla  de  esto  serla  llevar  a  cabo  (12.1.2) 
y  (12.1.3)  y  ver  si  la  autocorrelation  observada  en  el  modelo  (12.1.3),  de  existir,  desaparece 
cuando  se  efectua  (12. 1.2). 5  Analizaremos  el  mecanismo  real  para  detectar  la  autocorrelacion  en 
la  section  12.6,  donde  mostraremos  que  una  grafica  de  los  residuos  de  las  regresiones  (12.1.2)  y 
(12.1.3)  con  frecuencia  aclara  en  gran  rnedida  el  problema  de  correlation  serial. 


5  Si  se  encuentra  que  el  problema  real  es  de  sesgo  de  especificacion  y  no  de  autocorrelacion,  entonces, 
como  veremos  en  el  capftulo  1  3,  los  estimadores  de  MCO  de  los  parametros  en  la  ecuacion  (12.1 .3)  pueden 
ser  sesgados  e  inconsistentes. 
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FIGURA  12.2 

Sesgo  de  especificacion: 
Forma  funcional 
incorrecta. 


Sesgo  de  especificacion:  forma  funcional  incorrecta 

Suponga  que  el  modelo  “verdadero”  o  correcto  en  un  estudio  de  costo-produccion  es  el  si- 
guiente: 

Costo  marginal,  =  produccion,  +  produccion2  +  u,  (12.1.4) 

pero  ajustamos  el  siguiente  modelo: 

Costo  marginal,  =  a\  +  a.2  produccion,-  +  v,  (1 2.1.5) 

La  curva  de  costo  marginal  correspondiente  al  “verdadero”  modelo  se  muestra  en  la  figura  12.2, 
junto  con  la  curva  de  costo  lineal  “incorrecta”. 

Como  se  muestra  en  la  figura  12.2,  entre  los  puntos  A  y  B  la  curva  de  costo  marginal  li¬ 
neal  sobreestimara  consistentemente  el  costo  marginal  verdadero,  mientras  que  mas  alia  de  estos 
puntos,  lo  subestimara  consistentemente.  Este  resultado  es  de  esperarse  porque  el  termino  de 
perturbacion  v,  es,  en  realidad,  igual  a  produccion2  +  u„  y,  por  tanto,  capta  el  efecto  sistematico 
del  termino  produccion2  sobre  el  costo  marginal.  En  este  caso,  v,-  reflejara  autocorrelacion  por  el 
uso  de  una  forma  funcional  incorrecta.  En  el  capitulo  1 3  consideraremos  diversos  metodos  para 
detectar  sesgos  de  especificacion. 

Fenomeno  de  la  telarana 

La  oferta  de  muchos  productos  agricolas  refleja  el  llamado  fenomeno  de  la  telarana,  en  donde  la 
oferta  reacciona  al  precio  con  un  rezago  de  un  periodo  debido  a  que  la  instrumentacion  de  las  de- 
cisiones  de  oferta  tarda  algun  tiempo  (periodo  de  gestacion).  Por  tanto,  en  la  siembra  de  cultivos 
al  principio  de  ano,  los  agricultores  reciben  influencia  del  precio  prevaleciente  el  ano  anterior,  de 
forma  que  su  funcion  de  oferta  es 

Oferta,  =  +  PiPt-i  +  u,  (12.1.6) 

Suponga  que  al  final  del  periodo  t,  el  precio  P,  resulta  inferior  a  P,-\.  Por  consiguiente,  es  muy 
probable  que  en  el  periodo  t  +  1  los  agricultores  decidan  producir  menos  de  lo  que  produjeron 
en  el  periodo  t.  Obvio,  en  esta  situacion  no  esperaremos  que  las  perturbaciones  u,  sean  aleatorias, 
porque  si  los  agricultores  producen  excedentes  en  el  ano  t,  es  probable  que  reduzcan  su  produc¬ 
cion  en  t  +  1 ,  y  asi  sucesivamente,  para  generar  un  patron  de  telarana. 

Rezagos 

En  una  regresion  de  series  de  tiempo  del  gasto  de  consumo  sobre  el  ingreso  no  es  extrano 
encontrar  que  el  gasto  de  consumo  en  el  periodo  actual  dependa,  entre  otras  cosas,  del  gasto 
de  consumo  del  periodo  anterior. 
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Es  decir, 

Consumo,  =  ft  +  ft  ingreso,  +  ft  consumo, _i  +  u,  (1 2.1.7) 

Una  regresion  como  (12.1.7)  se  conoce  como  autorregresion  porque  una  variable  explicativa  es 
el  valor  rezagado  de  la  variable  dependiente.  (Estudiaremos  estos  modelos  en  el  capitido  17.)  El 
razonamiento  de  un  modelo  como  (12.1.7)  es  sencillo.  Los  consumidores  no  cambian  sus  habitos 
de  consumo  facilmente  por  razones  psicologicas,  tecnologicas  o  institucionales.  Ahora,  si  ignora- 
mos  el  termino  rezagado  en  (12.1.7),  el  termino  de  error  resultante  reflejara  un  patron  sistematico 
debido  a  la  influencia  del  consumo  rezagado  en  el  consumo  actual. 

“Manipulation  ”  de  datos 

En  el  analisis  empirico  con  frecuencia  se  “manipulan”  los  datos  simples.  Por  ejemplo,  en  las 
regresiones  de  series  de  tiempo  con  datos  trimestrales,  por  lo  general  estos  datos  provienen  de 
datos  mensuales  a  los  que  se  agregan  simplemente  las  observaciones  de  tres  meses  y  se  divide 
la  suma  entre  3.  Este  procedimiento  de  promediar  las  cifras  suaviza  en  cierto  grado  los  datos  al 
eliminar  las  fluctuaciones  en  los  datos  mensuales.  Por  consiguiente,  la  grafica  referente  a  datos 
trimestrales  aparece  mucho  mas  suave  que  la  que  contiene  los  datos  mensuales,  y  este  suaviza- 
miento  puede,  por  si  mismo,  inducir  un  patron  sistematico  en  las  perturbaciones,  lo  que  agrega 
autocorrelacion.  Otra  fuente  de  manipulation  es  la  interpolation  o  extrapolation  de  datos.  Por 
ejemplo,  el  Censo  de  Poblacion  se  realiza  cada  10  anos  en  Estados  Unidos,  y  los  dos  ultimos  se 
efectuaron  en  1990  y  2000.  Ahora  bien,  si  necesitamos  datos  para  algun  ano  comprendido  en  el 
periodo  intercensal,  la  practica  comun  consiste  en  interpolar  con  base  en  algunos  supuestos  ad 
hoc.  Todas  estas  tecnicas  de  “manejo”  podrian  imponer  sobre  los  datos  un  patron  sistematico  que 
quiza  no  estaria  presente  en  los  datos  originales.6 

Transformation  de  datos 

Como  un  ejemplo,  considere  el  siguiente  modelo: 

7  =  ft  +  ftft  +  u,  (12.1.8) 

donde,  digamos,  Y  —  gasto  de  consumo  y  X—  ingreso.  Como  (12.1.8)  es  valida  para  cada  pe¬ 
riodo,  tambien  lo  es  para  el  periodo  anterior  (t  —  1).  Asi,  podemos  expresar  (12.1.8)  como 

Yt-i  =  ft  +  ftX,_!  +  ut-i  (12.1.9) 

Yt- 1,  A,_i  y  m,_i  se  conocen  como  los  valores  rezagados  de  Y,  X  y  u,  respectivamente;  en  este 
caso  estan  rezagados  un  periodo.  Mas  tarde,  en  este  mismo  capitulo  y  en  varias  partes  del  libro, 
veremos  la  importancia  de  dichos  valores  rezagados. 

Ahora  bien,  si  restamos  (12.1.9)  de  (12.1.8),  obtenemos 

=  ftAA,  +  Xu,  (12.1.10) 

donde  A,  llamado  operador  de  primeras  diferencias,  indica  que  se  toman  diferencias  sucesivas 
de  las  variables  en  cuestion.  Por  tanto,  AY,  —  (Y,  —  7,_ i),  AX,  —  (X,  —  X,_ \ )  y  Am,  =  ( u ,  —  u,-\). 
Para  propositos  empiricos,  escribimos  (12.1.10)  como 

A7,=ftAI,+v,  (12.1.11) 

donde  v,  =  Am,  =  (m,  —  m,_i). 


6  Al  respecto,  vease  William  H.  Greene,  op.  cit.,  p.  526. 
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La  ecuacion  (12.1.9)  se  conoce  como  la  forma  de  nivel,  y  la  ecuacion  (12.1.10),  como  la 
forma  en  (primeras)  diferencias.  Ambas  formas  son  frecuentes  en  el  analisis  empirico.  Por 
ejemplo,  si  en  (12.1.9)  Y  y  X  representan  los  logaritmos  del  gasto  de  consumo  y  el  ingreso,  en- 
tonces  en  (12.1.10)  A  Y  y  A  X representaran  los  cambios  en  los  logaritmos  del  gasto  de  consumo 
y  del  ingreso.  Pero,  como  sabemos,  un  cambio  en  el  logaritmo  de  una  variable  — si  se  multiplica 
por  100 —  es  un  cambio  relativo,  o  un  cambio  porcentual.  De  modo  que,  en  vez  de  estudiar  las 
relaciones  entre  variables  en  la  forma  de  nivel,  podemos  interesarnos  por  las  relaciones  en  la 
forma  de  crecimiento. 

Ahora  bien,  si  el  termino  de  error  en  (12.1.8)  satisface  los  supuestos  usuales  de  los  MCO, 
sobre  todo  el  de  inexistencia  de  autocorrelacion,  podemos  probar  que  el  termino  de  error  v,  en 
(12.1.11)  esta  autocorrelacionado.  (La  prueba  se  encuentra  en  el  apendice  12A,  seccion  12A.  1 .) 
Los  modelos  como  (12.1.1 1)  se  denominan  modelos  dinamicos  de  regresion;  es  decir,  son  mo- 
delos  con  regresadas  rezagadas.  Estudiaremos  con  detalle  estos  modelos  en  el  capitulo  17. 

Lo  importante  del  ejemplo  anterior  es  que  a  veces  la  autocorrelacion  puede  inducirse  como 
resultado  de  transformar  el  modelo  original. 

No  estacionariedad 

Mencionamos  en  el  capitulo  1  que,  al  trabajar  con  datos  de  series  de  tiempo,  quiza  habria  que 
averiguar  si  una  determinada  serie  de  tiempo  es  estacionaria.  Aunque  el  tema  de  no  estacionarie¬ 
dad  se  analiza  con  mayor  detalle  en  los  capitulos  de  econometria  de  series  de  tiempo  de  la  parte 
5  del  libro,  una  serie  de  tiempo  es  estacionaria,  de  manera  informal,  si  sus  caracteristicas  (por 
ejemplo,  media,  varianza  y  covarianza)  son  invariantes  respecto  del  tiempo;  es  decir,  no  cambian 
en  relation  con  el  tiempo.  Si  no  es  asi,  tenemos  una  serie  de  tiempo  no  estacionaria. 

Como  veremos  en  la  parte  5,  en  un  modelo  de  regresion  como  (12.1.8)  es  muy  probable  que 
Y  y  X  sean  no  estacionarias,  y  por  consiguiente,  que  el  error  u  tambien  sea  no  estacionario.* * * * * * 7  En 
ese  caso,  el  termino  de  error  mostrara  autocorrelacion. 

Asi,  en  resumen,  hay  varias  razones  por  las  que  el  termino  de  error  en  un  modelo  de  regresion 
pueda  estar  autocorrelacionado.  En  lo  que  resta  del  capitulo  investigaremos  con  cierto  detalle  los 
problemas  planteados  por  la  autocorrelacion  y  lo  que  se  puede  hacer  al  respecto. 

Cabe  notar  tambien  que  la  autocorrelacion  puede  ser  positiva  [figura  12.3a)]  o  negativa,  aun¬ 
que  la  mayoria  de  las  series  de  tiempo  economicas  por  lo  general  muestra  autocorrelacion  posi¬ 
tiva,  pues  casi  todas  se  desplazan  hacia  arriba  o  hacia  abajo  en  extensos  periodos  y  no  exhiben  un 
movimiento  ascendente  y  descendente  constante,  como  el  de  la  figura  1 23b). 


12.2 


Estimacion  de  MCO  en  presencia  de  autocorrelacion 


(',Quc  sucede  con  los  estimadores  de  MCO  y  sus  varianzas  si  introducimos  autocorrelacion  en 

las  perturbaciones  con  la  suposicion  de  que  E(uru,+S)  ^  0  (.S’  ^  0),  pero  conservamos  todos  los 

demas  supuestos  del  modelo  clasico?8  Observe  de  nuevo  que  ahora  utilizamos  el  subindice  t  en 

las  perturbaciones  para  destacar  que  se  trata  de  datos  de  series  de  tiempo. 

Regresamos  al  modelo  de  regresion  de  dos  variables  para  explicar  sus  ideas  basicas,  a  saber, 
Yt—  Pi  +  PjX,  +  iif.  Para  oriental-  el  camino,  ahora  debemos  suponer  el  mecanismo  que  gene- 

ran  las  ut,  pues  E(u,ut+S)  ^  0  (s  /  0)  es  muy  general  como  supuesto  para  ser  de  alguna  utilidad 


7  Como  tambien  veremos  en  la  parte  5,  aunque  X  y  Y  sean  no  estacionarias,  es  posible  encontrar  que  u  lo 
sea.  Mas  adelante  analizaremos  lo  que  esto  implica. 

8  Si  s  =  0,  obtenemos  E  (uj).  Como  E(ut)  =  0  por  hipotesis,  E(uf)  representara  la  varianza  del  termino  de 
error,  que  obviamente  es  diferente  de  cero  (^.por  que?). 
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FIGURA  12.3 

a)  Autocorrelation  posi- 
tiva  y  b )  autocorrelation 
negativa. 


b) 


practica.  Como  punto  de  partida,  o  primera  aproximacion,  podemos  suponer  que  los  terminos  de 
error  o  perturbacion  se  generan  de  la  siguiente  manera: 

u,  —  pUt-l  +  s,  —\<p<\  (12.2.1) 

donde  p  ( =  rho)  se  conoce  como  coeficiente  de  autocovarianza  y  e,  es  la  perturbacion  estocas- 
tica  establecida  de  forma  que  satisface  los  supuestos  habituales  de  MCO,  a  saber, 

E{et)  =  0 

var(e,)  =  crs2  (12.2.2) 

cov(e,,  er+s)  =  0  s/0 

En  los  textos  de  ingenieria,  un  termino  de  error  con  las  propiedades  anteriores  a  menudo  se 
conoce  como  termino  de  error  de  ruido  bianco.  Lo  que  (12.2.1)  postula  es  que  el  valor  del  ter¬ 
mino  de  perturbacion  en  el  periodo  t  es  igual  a  p  multiplicada  por  su  valor  en  el  periodo  anterior 
mas  un  termino  de  error  puramente  aleatorio. 

El  esquema  (12.2.1)  se  conoce  como  esquema  autorregresivo  de  primer  orden  de  Markov, 
o  simplemente  esquema  autorregresivo  de  primer  orden,  y  suele  denotarse  como  AR(1).  El 
nombre  autorregresivo  es  apropiado  porque  (12.2.1)  puede  interpretarse  como  la  regresion  de  u, 
sobre  si  misma  con  un  rezago  de  un  periodo.  Es  de  primer  orden  porque  solo  participan  u,  y  su 
valor  pasado  inmediato;  es  decir,  el  rezago  maximo  es  1.  Si  el  modelo  fuera  ut  —  p\u,_\  +  ppip-i 
+  et,  seria  un  AR(2),  o  esquema  autorregresivo  de  segundo  orden,  y  asi  sucesivamente.  Estudia- 
remos  esos  esquemas  de  orden  superior  en  la  parte  5,  en  los  capitulos  sobre  la  econometria  de 
series  de  tiempo. 
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A  proposito,  observe  que  p,  el  coeficiente  de  autocovarianza  en  (12.2.1),  tambien  se  interpreta 
como  el  coeficiente  de  autocorrelacion  de  primer  orden,  o,  en  forma  mas  precisa,  coeficiente 
de  autocorrelacion  del  rezago  l.9 

Con  el  esquema  AR(1)  se  demuestra  que  (vease  el  apendice  12A,  section  12A.2): 


var («,)  -  E(u2,)  -  £ 

1  —  PZ 

(12.2.3) 

oj 

CO\  (Uti  U t-\-s )  —  E{utut-s)  —  p 

1  —  p1 

(12.2.4) 

cor  (ut,  ul+s)  -  ps 

(12.2.5) 

donde  co v(wr,  ut+s)  significa  la  covarianza  entre  los  terminos  de  error  de  s  periodos  distantes,  y 
cor(zq,  ut+s),  la  correlacion  entre  los  terminos  de  error  de  5  periodos  distantes.  Note  que,  debido 
a  la  propiedad  de  simetria  de  las  covarianzas  y  las  correlaciones,  co v(«,,  ut+s)  —  co v(ut,  u,-s)  y 
cor (ut,  ut+s)  —  cor (ut,  u,-s). 

Como  p  es  una  constante  con  valor  entre  —  1  y  +1  (12.2.3),  muestra  que,  con  el  esquema 
AR(1),  la  varianza  de  u,  es  todavia  homoscedastica;  no  obstante,  u,  esta  correlacionada  no  solo 
con  su  valor  inmediato  anterior,  sino  con  sus  valores  de  varios  periodos  anteriores.  Resulta  critico 
notar  que  \p\  <  1;  es  decir,  el  valor  absolute  de  p  es  menor  que  1.  Si,  por  ejemplo,  p  es  igual  a 
1,  las  varianzas  y  covarianzas  listadas  antes  no  estan  definidas.  Si  \p\  <  1,  se  dice  que  el  proceso 
AR(1)  en  (12.2.1)  es  estacionario\  es  decir,  la  media,  la  varianza  y  la  covarianza  de  u,  no  cambian 
respecto  del  tiempo.  Si  \p\  es  menor  que  1,  resulta  claro  de  (12.2.4)  que  el  valor  de  la  covarianza 
declinara  conforme  se  retroceda  al  pasado  distante.  En  breve  veremos  la  utilidad  de  los  resultados 
anteriores. 

Una  razon  para  utilizar  el  proceso  AR(1)  no  es  solo  su  simplicidad  en  comparacion  con  los 
esquemas  AR  de  orden  superior,  sino  porque  es  muy  util  para  muchas  aplicaciones.  Ademas,  hay 
gran  cantidad  de  trabajo  teorico  y  empirico  sobre  el  esquema  AR(  1). 

Ahora  regresemos  al  modelo  de  regresion  con  dos  variables:  +  foX,  +  ut.  Sabemos 

del  capitulo  3  que  el  estimador  de  MCO  del  coeficiente  de  pendiente  es 


y  su  varianza  esta  dada  por 


E 

E*i 


var(/§2)  = 


(12.2.6) 


(12.2.7) 


en  donde  las  letras  minusculas  denotan  como  siempre  la  desviacion  de  sus  valores  medios. 


9  Este  nombre  se  justifica  facilmente.  Por  definicion,  el  coeficiente  de  correlacion  (poblacionai)  entre  ut  y 
Ut- 1  es 

E  {[ut  -  E  (ut)][ut-i  -  E  (ut-i )]) 
v/var(ut)v/var(ut-i) 


_  E(utut- 1) 

_  var(u,_i) 

porque  E(ut)  =  0  para  cada  ty  var (ut)  =  var(ut_i),  pues  aun  es  valido  el  supuesto  de  homoscedasticidad. 
El  lector  puede  ver  que  p  es  tambien  el  coeficiente  de  pendiente  en  la  regresion  de  ut  sobre  ut~ i. 
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Ahora,  con  el  esquema  AR(1),  se  muestra  que  la  varianza  de  este  estimador  es: 


var(/?2)ARi  = 


L 


l+2p 


J2xtxt-i 

I>»2 


+  2  p 


:1 2xtXt- 


+  ■■■  +  2  p" 


-1  X\Xn 

X>F  J 

(12.2.8) 


donde  var(/l2)AR1  significa  la  varianza  de  fc  con  el  esquema  autorregresivo  de  primer  orden. 

Una  comparacion  de  (12.2.8)  con  (12.2.7)  muestra  que  la  primera  es  igual  a  la  ultima  mas 
un  termino  que  depende  de  p,  asi  como  de  las  autocorrelaciones  muestrales  entre  los  valores 
tornados  por  la  regresora  Xen  varios  rezagos.10  Y  no  podemos  predecir  que  la  var(/>2)  sera  menor 
o  mayor  que  var(/f2)AR1  [vease  ecuacion  (12.4.1),  mas  adelante].  Por  supuesto,  si  p  es  cero,  las 
dos  formulas  coincidiran,  como  debe  ser  (/.por  que?).  Asimismo,  si  las  correlaciones  entre  los 
valores  sucesivos  de  la  regresora  son  muy  pequenas,  la  varianza  usual  de  MCO  del  estimador 
de  pendiente  no  estara  muy  sesgada.  Sin  embargo,  como  principio  general,  las  dos  varianzas  no 
seran  iguales. 

Para  que  se  de  una  idea  respecto  de  la  diferencia  entre  las  varianzas  dadas  en  (12.2.7)  y 
(12.2.8),  suponga  que  la  regresora  X  tambien  sigue  el  esquema  autorregresivo  de  primer  orden 
con  un  coeficiente  de  autocorrelacion  de  r.  Se  demuestra  entonces  que  (12.2.8)  se  reduce  a: 


var(/)2)AR(i)  =  =  var(/)2)Mco  (12.2.9) 

Si,  por  ejemplo,  r  —  0.6  y  p  =  0.8,  con  (12.2.9)  podemos  verificar  que  var(/32)AR1  =  2.8461 
var(/)2)MC0.  Para  expresarlo  de  otra  manera,  var(/32)MCO  =  var(yS2)ARi  =  0.3513  var(/§2)AR1. 
Es  decir,  la  formula  usual  MCO  [es  decir,  (12.2.7)]  subestimara  la  varianza  de  (in) mu  aproxima- 
damente  65%.  Como  resulta  obvio,  esta  respuesta  es  especifica  para  los  valores  dados  de  r  y  p. 
Pero  lo  importante  de  este  ejercicio  es  advertir  que  aplicar  a  degas  las  formulas  usuales  de  MCO 
para  calcular  las  varianzas  y  los  errores  estandar  de  los  estimadores  de  MCO  pueden  generar 
resultados  muy  erroneos. 

Suponga  que  seguimos  utilizando  el  estimador  de  MCO  (i2  y  ajustamos  la  formula  de  varianza 
habitual,  con  el  esquema  AR(  1).  Es  decir  empleamos  el  /12  dado  por  (12.2.6)  pero  con  la  formula 
de  varianza  dada  por  (12.2.8).  (',Cualcs  son  ahora  las  propiedades  de  /12?  Es  facil  probar  que  (Jn 
es  aim  lineal  e  insesgado.  En  realidad,  como  se  observa  en  el  apendice  3A,  seccion  3A.2,  no  se 
requiere  el  supuesto  de  no  correlacion  serial  ni  el  de  no  heteroscedasticidad  para  demostrar  que 
yfi2  es  insesgado.  (',Es  in  aun  MELI?  Por  desgracia,  no;  en  la  clase  de  estimadores  lineales  e  in- 
sesgados,  no  tiene  varianza  minima.  En  resumen,  aunque  /J2  es  lineal  e  insesgado,  no  es  eficiente 
(en  terminos  relativos,  por  supuesto).  El  lector  notara  que  este  hallazgo  es  muy  similar  al  de  que 
y62  es  menos  eficiente  en  presencia  de  heteroscedasticidad.  Alii  vimos  que  el  estimador  eficien¬ 
te  era  el  estimador  de  minimos  cuadrados  ponderados,  /if',  dado  en  (11.3.8),  un  caso  especial 
del  estimador  de  minimos  cuadrados  generalizados  (MCG).  En  el  caso  de  autocorrelacion, 
^podemos  encontrar  un  estimador  que  sea  MELI?  La  respuesta  es  si,  como  veremos  en  la  si- 
guiente  seccion. 


10  Observe  que  el  termino  r  =  J2  xtxt+ 1  /J2xtes  correlacion  entre  Xt  y  Xt+i  (o  Xt_i,  pues  el  coeficiente 
de  correlacion  es  simetrico);  r2  =  Jf  xtxt+2/  If  x?  es  la  correlacion  entre  las  X  rezagadas  dos  periodos, 
etcetera. 
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12.3  Estimador  MELI  en  presencia  de  autocorrelacion 


A1  continuar  con  el  modelo  de  dos  variables  y  suponer  el  proceso  AR(1),  es  posible  demostrar 
que  el  estimador  MELI  de  fio  esta  dado  por  la  siguiente  expresion:11 


oMCG 

Pi 


T!',=i(xt  -  pxt-\)(jt  -  pyt- 1)  r 

E;=2(x,  -  px,_o2 


(12.3.1) 


donde  C  es  un  factor  de  correccion  que  puede  ignorarse  en  la  practica.  Observe  que  el  subindice 
t  varia  ahora  de  t  —  2  a  t  —  n.  Y  su  varianza  esta  dada  por 


var4MCG 


Y,"=i(xt  -  Pxt-\): 


+  D 


(12.3.2) 


donde  D  tambien  es  un  factor  de  correccion  que  puede  ignorarse  en  la  practica.  (Vease  el  ejer- 
cicio  12.18.) 

El  estimador  /3|'ICG,  como  lo  indica  el  superindice,  se  obtiene  por  el  metodo  de  MCG.  Como 
mencionamos  en  el  capitulo  11,  en  MCG  se  incorpora  directamente  cualquier  informacion  adi- 
cional  que  se  tenga  (por  ejemplo,  la  naturaleza  de  la  heteroscedasticidad  o  de  la  autocorrelacion) 
en  el  proceso  de  estimacion  mediante  la  transformacion  de  variables,  mientras  que  en  MCO  tal 
informacion  adicional  no  se  considera  directamente.  Como  puede  ver,  el  estimador  de  MCG  de 
P2  dado  en  (12.3.1)  incorpora  el  parametro  de  autocorrelacion  p  en  la  formula  de  estimacion, 
mientras  que  la  formula  de  MCO  dada  en  (12.2.6)  simplemente  lo  ignora.  La  intuicion  indica  que 
por  esta  razon  el  estimador  de  MCG  es  MELI  y  el  estimador  de  MCO  no  lo  es;  el  estimador  de 
MCG  emplea  al  maximo  la  informacion  disponible.12  No  es  preciso  mencionar  que  si  p  —  0,  no 
hay  informacion  adicional  que  deba  considerarse  y,  por  tanto,  los  estimadores  de  MCG  y  MCO 
son  identicos. 

En  resumen,  con  autocorrelacion,  el  estimador  de  MCG  dado  en  (12.3.1)  es  MELI  y  la  va¬ 
rianza  minima  esta  dada  ahora  por  (12.3.2)  y  no  por  (12.2.6),  ni,  obvio,  por  (12.2.7). 

Not  a  tecnica 

Como  observamos  en  el  capitulo  anterior,  el  teorema  de  Gauss-Markov  proporciona  solo  la  con- 
dicion  suficiente  para  que  los  MCO  sean  MELI.  Las  condiciones  suficientes  y  necesarias  para 
que  los  MCO  sean  MELI  las  establece  el  teorema  de  Kruskal,  mencionado  en  el  capitulo  ante¬ 
rior.  Asi,  en  algunos  casos  los  MCO  pueden  ser  MELI,  a  pesar  de  la  autocorrelacion.  Pero  tales 
casos  son  poco  frecuentes  en  la  practica. 

(',Que  sucede  si  se  continua  trabajando  despreocupadamente  con  el  procedimiento  MCO  usual, 
a  pesar  de  la  autocorrelacion?  La  respuesta  se  da  en  la  siguiente  seccion. 


11  Para  las  demostraciones,  vease  jan  Kmenta,  Elements  of  Econometrics,  Macmillan,  Nueva  York,  1 971, 

pp.  274-275.  El  factor  de  correccion  C  se  refiere  a  la  primera  observacion  (Vi,  Xj).  Sobre  este  punto,  vease  el 
ejercicio  1 2.1 8. 

12  La  prueba  formal  de  que  ^21CC  es  MELI  se  encuentra  en  Kmenta,  ibid.  Sin  embargo,  la  tediosa  prueba  al- 
gebraica  se  simplifica  considerablemente  mediante  notacion  matricial.  Vease  J.  Johnston,  Econometric 
Methods,  3a.  ed.,  McGraw-Hill,  Nueva  York,  1984,  pp.  291-293. 
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12.4  Consecuencias  de  utilizar  MCO  eii  presencia 
de  autocorrelacion 


Como  en  la  heteroscedasticidad,  en  presencia  de  autocorrelacion  los  estimadores  continuan 
siendo  lineales  e  insesgados,  al  igual  que  consistentes,  y  estan  distribuidos  de  forma  asintotica- 
mente  normal,  pero  dejan  de  ser  eficientes  (es  decir,  no  tienen  varianza  minima).  /.Que  sucede 
entonces  con  los  procedimientos  usuales  de  pruebas  de  hipotesis  si  se  conservan  los  estimadores 
de  MCO?  De  nuevo,  como  en  el  caso  de  heteroscedasticidad,  se  distinguen  dos  casos.  Por  razo- 
nes  pedagogicas  continuaremos  trabajando  con  el  modelo  de  dos  variables,  aunque  el  siguiente 
analisis  puede  extenderse  a  regresiones  multiples  sin  mucho  esfuerzo.13 

Estimacion  por  MCO  tomando  en  cuenta  la  autocorrelacion 

Como  se  menciono,  fti  no  es  MELI,  y  aunque  se  fuera  a  usar  var(yC)Ai<i,  es  probable  que  los  inter¬ 
vals  de  confianza  derivados  de  alii  sean  mas  amplios  que  los  basados  en  el  procedimiento  MCG. 
Como  senala  Kmenta,  es  probable  que  este  sea  el  resultado  aunque  el  tamano  de  la  muestra  se 
incremente  indefinidamente.14  Es  decir,  P2  no  es  asintoticamente  eficiente.  La  implicacion  de  este 
hallazgo  para  pruebas  de  hipotesis  es  clara:  es  probable  que  se  declare  un  coeficiente  estadistica- 
mente  no  significativo  (es  decir,  no  diferente  de  cero)  aunque  en  realidad  pueda  serlo  (es  decir,  si 
se  basa  en  el  procedimiento  MCG  correcto).  Esta  diferencia  se  ve  claramente  en  la  figura  12.4. 
En  ella  se  muestran  intervalos  de  confianza  a  95%  de  MCO  [AR(1)]  y  MCG  suponiendo  que  el 
verdadero  f$2  —  0.  Considere  una  estimacion  particular  de  /L,  por  ejemplo,  bj-  Como  bi  cae  en 
el  intervalo  de  confianza  de  MCO,  podemos  aceptar  la  hipotesis  de  que  el  verdadero  /L  es  cero  con 
95%  de  confianza.  Pero  si  utilizaramos  el  intervalo  de  confianza  de  MCG  (correcto),  podrlamos 
rechazar  la  hipotesis  nula  de  que  el  verdadero  /L  es  cero,  pues  (>2  cae  en  la  region  de  rechazo. 

El  mensaje  es:  para  establecer  intervalos  de  confianza  y  probar  hipotesis,  debe  utilizarse 
MCG  y  no  MCO,  aunque  los  estimadores  derivados  de  este  ultimo  sean  insesgados  y  consis¬ 
tentes.  (No  obstante,  vease  la  seccion  12.1 1.) 


FIGURA  12.4 

Intervalos  de  confianza  a 
95%  de  MCG  y  MCO. 


Intervalo  a  95%  de  MCO 


Estimacion  por  MCO  ignorando  la  autocorrelacion 

La  situacion  es  potencialmente  muy  grave  si  no  solo  utilizamos  P2  sino  tambien  var(j02)  = 
ct2/  con  1°  cual  se  ignora  por  completo  el  problema  de  autocorrelacion;  es  decir,  creemos 
erroneamente  que  los  supuestos  usuales  del  modelo  clasico  se  mantienen.  Surgiran  errores  por 
las  siguientes  razones: 

1.  Es  probable  que  la  varianza  de  los  residuos  <r2  =  ^  it]  j(n  —  2)  subestime  la  verdadera  a1. 

2.  Como  resultado,  es  probable  que  se  sobreestime  R2. 


13  Pero  el  algebra  matricial  se  convierte  casi  en  una  necesidad  para  evitar  tediosas  manipulaciones 
algebraicas. 

14  Vease  Kmenta,  op.  cit.,  pp.  277-278. 
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3.  Aunque  a2  no  este  subestimada,  var(/b)  puede  subestimar  var(/b)ARi  [ecuacion  (12.2.8)],  su 
varianza  con  autocorrelacion  (de  primer  orden),  pese  a  que  esta  ultima  sea  ineficiente  compa- 
rada  con  var(/b)MCG. 

4.  Por  consiguiente,  las  pruebas  de  significancia  t  y  Fusuales  dejan  de  ser  validas  y,  de  aplicarse, 
es  probable  que  conduzcan  a  conclusiones  erroneas  sobre  la  significancia  estadistica  de  los 
coeficientes  de  regresion  estimados. 

Para  establecer  algunas  de  estas  proposiciones,  regresemos  al  modelo  de  dos  variables.  Sabe- 
mos,  del  capitulo  3,  que  segun  el  supuesto  clasico 


(»-  2) 


constituye  un  estimador  insesgado  de  a2,  es  decir,  E(o2)  —  a2.  Pero  si  hay  autocorrelacion,  dada 
por  AR(1),  se  ve  que 


E{a2) 


a2{n-\2/(l-p)]-2pr} 
n  —  2 


(12.4.1) 


donde  r  =  Y^'t=i  xtxt-il  Y-!t=  \  -V-  clLle  puede  interpretarse  como  el  coeficiente  de  correlacion 
(muestral)  entre  valores  sucesivos  de  las  X15  Si  p  y  r  son  positivos  (lo  cual  no  es  un  supuesto 
improbable  para  la  mayoria  de  las  series  de  tiempo  economicas),  es  claro  de  (12.4.1 )  que  E(o 2) 
<  a2;  es  decir,  la  formula  usual  de  varianza  residual,  en  promedio,  subestimara  la  verdadera  a2. 
En  otras  palabras,  a2  estara  sesgada  hacia  abajo.  Sobra  decir  que  este  sesgo  en  <f 2  se  transmitira 
a  var(/b),  pues,  en  la  practica,  esta  ultima  se  estima  con  la  formula  <r2/  ]TX2. 

Sin  embargo,  aunque  a2  no  se  subestime,  var(/b)  es  un  estimador  sesgado  de  var(/b)ARb  lo 
cual  se  ve  facilmente  al  comparar  (12.2.7)  con  (12. 2. 8),16  pues  las  dos  formulas  no  son  iguales. 
En  realidad,  si  p  es  positivo  (lo  cual  sucede  en  la  mayoria  de  las  series  de  tiempo  economicas) 
y  las  X  estan  correlacionadas  positivamente  (que  tambien  sucede  en  la  mayoria  de  las  series  de 
tiempo  economicas),  es  claro  que 

var(/32)  <  var(/§2)ARi  (12.4.2) 

es  decir,  la  varianza  de  MCO  usual  de  /b  subestima  su  varianza  con  AR(1)  [vease  la  ecuacion 
(12.2.9)].  Por  consiguiente,  si  utilizamos  var)/^),  inflaremos  la  precision  o  exactitud  (es  decir, 
subestimamos  el  error  estandar)  del  estimador  (b.  Como  resultado,  al  calcular  la  razon  t  como 
t  =  /b/ee  (^2)  (segun  la  hipotesis  de  que  fa  —  0),  sobreestimamos  el  valor  de  t,  y,  por  tanto,  la 
significancia  estadistica  de  /b  estimado.  La  situacion  tiende  a  empeorar  si  ademas  a 2  esta  subes¬ 
timada,  como  ya  observamos. 

Para  ver  la  forma  en  que  quiza  MCO  subestime  a2  y  la  varianza  de  fh,  realicemos  el  siguiente 
experimento  Monte  Carlo.  Suponga  que  en  el  modelo  de  dos  variables  “conocemos”  las  verda- 
deras  fi\—  1  y  /b  =  0.8.  Por  consiguiente,  la  FRP  estocastica  es 


Y,  =  1.0  +  0.8X,  +  u, 


(12.4.3) 


15  Vease  S.M.  Goldfeld  y  R.E.  Quandt,  Nonlinear  Methods  in  Econometrics,  North  Holland  Publishing  Com¬ 
pany,  Amsterdam,  1972,  p.  183.  A  proposito,  observe  que  si  los  errores  estan  autocorrelacionados  positi¬ 
vamente,  el  valor  R2  tiende  a  tener  un  sesgo  hacia  arriba,  es  decir,  tiende  a  ser  mas  grande  que  el  R2  en 
ausencia  de  tal  correlacion. 

16  Para  una  prueba  formal,  vease  Kmenta,  op.  cit.,  p.  281 . 
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TAB  LA  12.1 

Ejemplo  hipotetico  de 
terminos  de  error  posi- 
tivamente  autocorrela- 
cionados 


Ef 

ut  =  0.7u(_i  +  st 

0 

0 

uq  =  5  (supuesto) 

1 

0.464 

u,  =  0.7(5)  +  0.464  =  3.964 

2 

2.026 

u2  =  0.7(3.964)  +  2.0262  = 

4.8008 

3 

2.455 

u3  =  0.7(4.8010) +  2.455  = 

5.8157 

4 

-0.323 

u4  =  0.7(5.8157)  -  0.323  = 

3.7480 

5 

-0.068 

us  =  0.7(3.7480)  -  0.068  = 

2.5556 

6 

0.296 

u6  =  0.7(2.5556)  +  0.296  = 

2.0849 

7 

-0.288 

u7=  0.7(2.0849)  -  0.288  = 

1.1714 

8 

1.298 

u8  =  0.7(1.1714)  +  1.298  = 

2.1180 

9 

0.241 

u9  =  0.7(2.1180)  +  0.241  = 

1.7236 

10 

-0.957 

u10  =  0.7(1.7236)  -  0.957  = 

0.2495 

Nota:  Los  datos  de  £t  provienen  de  A  Million  Random  Digits  and  One  Hundred  Thousand  Deviates, 
Rand  Corporation,  Santa  Monica,  California,  1950. 


Por  tanto, 


E{Y,\X,)  =  1.0 +  0.8*,  (12.4.4) 

lo  cual  da  la  verdadera  linea  de  regresion  poblacional.  Supongamos  que  las  u,  se  generan  me- 
diante  el  esquema  autorregresivo  de  primer  orden  de  la  siguiente  manera: 

Ut  =  OJut-i  +  st  (12.4.5) 

donde  st  satisface  todos  los  supuestos  de  MCO.  Ademas,  por  conveniencia,  supongamos  que  los 
st  estan  normalmente  distribuidos  con  media  cero  y  varianza  unitaria  (  =  1).  La  ecuacion  (12.4.5) 
postula  que  las  perturbaciones  consecutivas  estan  correlacionadas  positivamente,  con  un  coefi- 
ciente  de  autocorrelacion  de  +0.7,  un  grado  mas  bien  alto  de  dependencia. 

Ahora,  con  una  tabla  de  numeros  aleatorios  normales  con  media  cero  y  varianza  unitaria,  ge- 
neramos  los  10  numeros  aleatorios  de  la  tabla  12.1,  mediante  el  esquema  (12.4.5)  generamos  u,. 
Para  iniciar  el  esquema  necesitamos  especificar  el  valor  inicial  de  u,  por  ejemplo,  uq  —  5. 

A1  graficar  las  u,  generadas  en  la  tabla  12.1  obtenemos  la  figura  12.5,  la  cual  muestra  que,  al 
principio,  cada  ut  sucesiva  tiene  un  valor  mas  alto  que  su  valor  anterior,  y  despues,  por  lo  regular, 
es  menor  que  su  valor  anterior,  para  mostrar,  en  general,  una  autocorrelacion  positiva. 

Ahora  suponga  que  los  valores  de  X  estan  dados  en  1,  2,  3,  .  .  .  ,  10.  Entonces,  con  estas  X, 
podemos  generar  una  muestra  de  10  valores  Y  de  (12.4.3)  y  de  los  valores  de  u,  dados  en  la  tabla 
12.1.  Los  detalles  se  presentan  en  la  tabla  12.2.  Si  con  los  datos  de  la  tabla  12.2,  efectuamos 
la  regresion  de  Y  sobre  X,  obtenemos  la  siguiente  regresion  (muestral): 


Y,  =  6.5452  +  0.3051  A, 

(0.6153)  (0.0992) 

t  =  (10.6366)  (3.0763) 

r 2  =  0.5419 


(12.4.6) 

o'2  =0.8114 


mientras  que  la  verdadera  linea  de  regresion  es  como  la  dada  por  (12.4.4).  Ambas  lineas  de 
regresion  se  muestran  en  la  figura  12.6,  la  cual  senala  claramente  cuanto  distorsiona  la  linea 
de  regresion  ajustada  a  la  verdadera  linea  de  regresion;  esta  subestima  en  gran  medida  al  ver- 
dadero  coeficiente  de  pendiente  pero  sobreestima  al  intercepto  verdadero.  (Sin  embargo,  observe 
que  los  estimadores  de  MCO  aun  son  insesgados.) 

La  figura  12.6  tambien  muestra  por  que  es  probable  que  la  verdadera  varianza  de  u,  este  sub- 
estimada  por  el  estimador  a2,  el  cual  se  calcula  a  partir  de  las  w,-.  Las  u,  suelen  estar  cerca  de 
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FIGURA  12.5 

Correlation  generada 
por  el  esquema 
ut  =  Q  Jut-i  +  st 
(tabla  12.1). 


Tiempo 


TABLA  12.2 

Generation  de  valores 
muestrales  de  F 


Yt  = 

© 

+ 

o 

bo 

>< 

+ 

ut 

1 

3.9640 

Y^  = 

1.0  +  0.8(1) 

+  3.9640  = 

5.7640 

2 

4.8010 

v2  = 

1.0 +  0.8(2) 

+  4.8008  = 

7.4008 

3 

5.8157 

Vs  = 

1.0 +  0.8(3) 

+  5.8157  = 

9.2157 

4 

3.7480 

v4  = 

1 .0  +  0.8(4) 

+  3.7480  = 

7.9480 

5 

2.5556 

V5  = 

1.0 +  0.8(5) 

+  2.5556  = 

7.5556 

6 

2.0849 

v6  = 

1.0 +  0.8(6) 

+  2.0849  = 

7.8849 

7 

1.1714 

v7  = 

1.0  +  0.8(7) 

+  1.1714  = 

7.7714 

8 

2.1180 

V8  = 

1.0  +  0.8(8) 

+  2.1180  = 

9.5180 

9 

1.7236 

V9  = 

1.0  +  0.8(9) 

+  1.7236  = 

9.9236 

10 

0.2495 

^10  = 

1.0  +  0.8(10)  +  0.2495  = 

9.2495 

Nota:  Los  datos  de  w,provienen  de  la  tabla  12.1. 


la  lmea  ajustada  (lo  cual  se  debe  al  procedimiento  MCO)  pero  se  desvian  sustancialmente  de  la 
verdadera  FRP.  Por  tanto,  no  dan  una  imagen  correcta  de  Para  tener  una  mejor  idea  del  grado 
en  que  se  subestima  el  verdadero  valor  de  a1  suponga  que  efectuamos  otro  experimento  de  mues- 
treo.  Con  los  valores  de  X,  y  e,  de  las  tablas  1 2. 1  y  12.2,  suponga  que  p  —  0.  es  decir,  que  no  hay 
autocorrelacion.  La  nueva  muestra  de  valores  de  Y,  asi  generados,  esta  en  la  tabla  12.3. 
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FIGURA  12.6 

FRP  verdadera  y  llnea  de 
regresion  estimada  para 
los  datos  de  la  tabla  12.2. 


TAB  LA  12.3 

Muestra  de  valores  Y 
con  correlacion  serial 
igual  a  cero 


Y 


Xt 

Et  =  ut 

Yt  —  1.0  +  0.8Xf  +  £f 

1 

0.464 

2.264 

2 

2.026 

4.626 

3 

2.455 

5.855 

4 

-0.323 

3.877 

5 

-0.068 

4.932 

6 

0.296 

6.096 

7 

-0.288 

6.312 

8 

1.298 

8.698 

9 

0.241 

8.441 

10 

-0.957 

8.043 

Nota:  Como  no  hay  autocorrelation,  las  ut  y  st  son  identicas.  Las  et  se 
tomaron  de  la  tabla  12.1. 


La  regresion  basada  en  la  tabla  12.3  es  la  siguiente: 

Y,  =  2.5345  +  0.6145X, 

(0.6796)  (0.1087) 

*  =  (3.7910)  (5.6541) 

r 2  =  0.7997  a2  =  0.9752 


(12.4.7) 


Esta  regresion  es  mucho  mas  cercana  a  la  “verdadera”  porque  las  Y  son  ahora  en  esencia  aleato- 
rias.  Observe  que  a2  aumento  de  0.81 14  (p  =  0.7)  a  0.975  (p  =  0),  y  tambien  que  aumentaron 
los  errores  estandar  de  fti  y  Pi-  Este  resultado  coincide  con  los  resultados  teoricos  ya  conside- 
rados. 
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12.5  Relacion  entre  salarios  y  productividad  en  el  sector 
de  negocios  de  Estados  Unidos,  1960-2005 


Ahora  que  analizamos  las  consecuencias  de  la  autocorrelation,  la  pregunta  obvia  es:  (',c6mo  de- 
tectarla  y  corregirla?  Antes  de  adentrarnos  en  esos  temas,  consideremos  un  ejemplo  concreto.  La 
tabla  12.4  proporciona  information  sobre  indices  de  remuneracion  real  por  hora  Y  (RCOMPB)  y 
production  por  hora  A  (PRODB)  en  el  sector  de  negocios  de  la  economia  de  Estados  Unidos  de 
1960  a  2005;  la  base  de  los  indices  es  1992  =  100. 

Primero  graficamos  los  datos  de  Yy  X,  con  lo  que  obtenemos  la  figura  12.7.  Como  se  espera 
que  la  relacion  entre  la  remuneracion  real  y  la  productividad  del  trabajo  sea  positiva,  no  sor- 
prende  que  las  dos  variables  esten  positivamente  relacionadas.  Lo  que  si  sorprende  es  que  su 
relacion  sea  casi  lineal,  aunque  se  da  alguna  pista  de  que,  en  niveles  mas  altos  de  productividad, 
la  relacion  entre  ambas  podria  ser  menos  lineal.  En  consecuencia,  decidimos  estimar  un  modelo 
lineal  y  un  log-lineal,  con  los  siguientes  resultados: 


Y,  =  32.7419  + 

0.6704X, 

ee  =  (1.3940) 

(0.0157) 

t=  (23.4874) 

(42.7813) 

(12.5.1) 

r2  = 

=  0.9765  d  —  0.1739 

<5-  =  2.3845 

TABLA  12.4 

Ano 

Y 

X 

Ano 

Y 

X 

Indices  de  remuneracion 

real  y  productividad  en 

1960 

60.8 

48.9 

1983 

90.3 

83.0 

Estados  Unidos,  1960- 

1961 

62.5 

50.6 

1984 

90.7 

85.2 

2005  (cifras  de  los  indi- 

1962 

64.6 

52.9 

1985 

92.0 

87.1 

ces,  1992  =  100;  datos 

1963 

66.1 

55.0 

1986 

94.9 

89.7 

trimestrales  ajustados 

1964 

67.7 

56.8 

1987 

95.2 

90.1 

por  estacionalidad) 

1965 

69.1 

58.8 

1988 

96.5 

91.5 

1966 

71.7 

61.2 

1989 

95.0 

92.4 

Fuente:  Economic  Report  of  the 

1967 

73.5 

62.5 

1990 

96.2 

94.4 

President,  2007,  tabla  B-49. 

1968 

76.2 

64.7 

1991 

97.4 

95.9 

1969 

77.3 

65.0 

1992 

100.0 

100.0 

1970 

78.8 

66.3 

1993 

99.7 

100.4 

1971 

80.2 

69.0 

1994 

99.0 

101.3 

1972 

82.6 

71.2 

1995 

98.7 

101.5 

1973 

84.3 

73.4 

1996 

99.4 

104.5 

1974 

83.3 

72.3 

1997 

100.5 

106.5 

1975 

84.1 

74.8 

1998 

105.2 

109.5 

1976 

86.4 

77.1 

1999 

108.0 

112.8 

1977 

87.6 

78.5 

2000 

112.0 

116.1 

1978 

89.1 

79.3 

2001 

113.5 

119.1 

1979 

89.3 

79.3 

2002 

115.7 

124.0 

1980 

89.1 

79.2 

2003 

117.7 

128.7 

1981 

89.3 

80.8 

2004 

119.0 

132.7 

1982 

90.4 

80.1 

2005 

120.2 

135.7 

Notas:  Y  =  indice  de  remuneracion  real  por  hora,  sector  de  negocios  (1992  =  100). 
X  =  indice  de  production,  sector  de  negocios  (1992  =  100). 
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FIGURA  12.7 

Indice  de  remuneracion 
(y)  e  indice  de  productivi- 
dad  (X),  Estados  Unidos, 
1960-2005. 
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donde  d  es  el  estadistico  Durbin- Watson,  que  analizaremos  en  breve. 

In?,  =  1.6067  +  0.6522  In  Xt 

ee  =  (0.0547)  (0.0124) 

t=  (29.3680)  (52.7996)  (12.5.2) 

r1  =  0.9845  d  =  0.2176  a  =  0.0221 

En  vista  de  que  el  modelo  anterior  es  de  doble  logaritmo,  el  coeficiente  de  la  pendiente  repre- 
senta  la  elasticidad.  En  el  caso  presente,  observamos  que  si  la  productividad  de  la  mano  de  obra 
aumenta  1%,  la  remuneracion  promedio  se  incrementa  alrededor  de  0.65%. 

Cualitativamente,  ambos  modelos  dan  resultados  semejantes.  En  los  dos  casos,  los  coeficien- 
tes  estimados  son  “muy”  significativos,  como  indican  los  altos  valores  t.  En  el  modelo  lineal,  si 
el  indice  de  productividad  aumenta  una  unidad,  en  promedio,  el  de  remuneracion  se  incrementa 
casi  0.67  unidades.  En  el  modelo  log-lineal,  al  ser  el  coeficiente  de  pendiente  una  elasticidad 
(,'por  que?),  tenemos  que  si  el  indice  de  productividad  se  incrementa  1%,  en  promedio,  el  indice 
de  remuneracion  real  aumenta  casi  0.65%. 

(',Cuan  confiables  son  los  resultados  en  (12.5.1)  y  (12.5.2)  si  existe  autocorrelacion?  Como  ya 
establecimos,  si  hay  autocorrelacion,  los  errores  estandar  estimados  estan  sesgados,  y  como 
resultado,  las  razones  t  estimadas  no  son  confiables.  Obviamente  necesitamos  averiguar  si  en  los 
datos  hay  autocorrelacion.  En  la  siguiente  section  analizamos  varios  metodos  para  detectar  la 
autocorrelacion.  Ilustraremos  estos  metodos  con  el  modelo  log-lineal  (12.5.2). 


12.6  Deteccion  de  la  autocorrelacion 


I.  Metodo  grafico 

Recuerde  que  el  supuesto  de  no  autocorrelacion  del  modelo  clasico  se  relaciona  con  las  perturba- 
ciones  poblacionales  ut,  las  cuales  no  pueden  observarse  directamente.  En  su  lugar  disponemos 
de  valores  sustitutos,  los  residuos  ut,  a  partir  del  procedimiento  usual  MCO.  Aunque  las  u,  no  son 
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FIGURA  12.8 

Residuos  (amplificados 
100  veces)  y  residuos 
estandarizados  de  la  re- 
gresion  de  salarios  sobre 
productividad  (forma  log: 
modelo  12.5.2). 


Ano 


lo  mismo  que  las  u,,]1  con  mucha  frecuencia  un  examen  visual  de  las  u  da  algunas  claves  sobre  la 
posible  presencia  de  autocorrelacion  en  las  u.  En  realidad,  un  examen  visual  de  ut  o  (uj)  propor- 
ciona  informacion  util  no  solo  sobre  la  autocorrelacion,  sino  tambien  sobre  heteroscedasticidad 
(como  vimos  en  el  capitulo  anterior),  sobre  el  grado  de  adecuacion  del  modelo  o  sobre  el  sesgo 
de  especificacion,  lo  cual  veremos  en  el  siguiente  capitulo.  Como  afirma  un  autor: 

No  se  puede  exagerar  la  importancia  de  producir  y  analizar  graficos  [de  residuos]  como  parte  habitual 
del  analisis  estadistico.  Ademas  de  proporcionar  en  ocasiones  un  resumen  accesible  para  entender 
un  problema  complejo,  permiten  el  examen  simultaneo  de  los  datos,  considerados  en  su  conjunto, 
mientras  que  a  la  vez  ilustran  con  claridad  el  comportamiento  de  los  casos  individuales.18 

Hay  diversas  formas  de  examinar  los  residuos.  Podemos  graficarlos  simplemente  respecto  del 
tiempo,  con  una  grafica  secuencial  de  tiempo,  como  en  la  figura  12.8,  que  muestra  los  residuos 
obtenidos  de  la  regresion  de  salarios  sobre  la  productividad  en  Estados  Unidos  (12.5.2).  Los  va- 
lores  de  estos  residuos  estan  en  la  tabla  12.5,  junto  con  algunos  otros  datos. 

Por  otro  lado,  podemos  graficar  los  residuos  estandarizados  respecto  del  tiempo,  los  cuales 
tambien  se  muestran  en  la  figura  12.8  y  en  la  tabla  12.5.  Los  residuos  estandarizados  son  tan  solo 
los  residuos  ( u, )  divididos  entre  el  error  estandar  de  la  regresion  (Vct^);  es  decir,  son  (ut/o). 
Observe  que  u,  al  igual  que  a,  estan  medidos  en  las  unidades  en  las  cuales  se  mide  la  variable 
regresada  Y.  Los  valores  de  los  residuos  estandarizados  seran  numeros  puros  (desprovistos  de 
unidades  de  medicion)  y,  por  consiguiente,  son  comparables  con  los  residuos  estandarizados 
de  otras  regresiones.  Ademas,  los  residuos  estandarizados,  asi  como  ut,  tienen  media  igual  a  cero 
(<)por  que?)  y  varianza  aproximadamente  igual  a  la  unidad.19 


17Aunque  las  perturbaciones  utsean  homoscedasticas  y  no  esten  correlacionadas,  sus  estimadores,  los 
residuos  ut,  son  heteroscedasticos  y  autocorrelacionados.  Al  respecto,  vease  C.S.  Maddala,  Introduction 
to  Econometrics,  Macmillan,  2a.  ed.,  Nueva  York,  1 992,  pp.  480-481 .  No  obstante,  se  puede  mostrar  que, 
conforme  se  incrementa  el  tamano  de  la  muestra  de  manera  indefinida,  los  residuos  tienden  a  converger  a 
sus  valores  reales,  las  ut.  Sobre  este  tema,  consulte  E.  Malinvaud,  Statistical  Methods  of  Econometrics,  2a.  ed., 
North-Holland  Publishers,  Amsterdam,  1970,  p.  88. 

18  Stanford  Weisberg,  Applied  Linear  Regression,  John  Wiley  &  Sons,  Nueva  York,  1 980,  p.  1 20. 

19  En  realidad,  son  los  llamados  residuos  de  Studentized  los  que  tienen  varianza  unitaria.  Pero  en  la  prac- 
tica,  los  residuos  estandarizados  suelen  mostrar  la  misma  condicion  y,  por  tanto,  se  puede  confiar  en  ellos. 
Al  respecto,  vease  Norman  Draper  y  Harry  Smith,  Applied  Regression  Analysis,  3a.  ed.,  John  Wiley  &  Sons, 
Nueva  York,  1998,  pp.  207-208. 
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TABLA  12.5  Residuos:  Reales,  estandarizados  y  rezagados 


Observation 

SI 

RESEST 

S1(-1) 

Observation 

SI 

RESEST 

si(-i) 

1960 

-0.036068 

-1.639433 

NA 

1983 

0.014416 

0.655291 

0.038719 

1961 

-0.030780 

-1.399078 

-0.036068 

1984 

0.001774 

0.080626 

0.014416 

1962 

-0.026724 

-1.214729 

-0.030780 

1985 

0.001620 

0.073640 

0.001774 

1963 

-0.029160 

-1.325472 

-0.026724 

1986 

0.013471 

0.612317 

0.001620 

1964 

-0.026246 

-1.193017 

-0.029160 

1987 

0.013725 

0.623875 

0.013471 

1965 

-0.028348 

-1.288551 

-0.026246 

1988 

0.017232 

0.783269 

0.013725 

1966 

-0.017504 

-0.795647 

-0.028348 

1989 

-0.004818 

-0.219005 

0.017232 

1967 

-0.006419 

-0.291762 

-0.017504 

1990 

-0.006232 

-0.283285 

-0.004818 

1968 

0.007094 

0.322459 

-0.006419 

1991 

-0.004118 

-0.187161 

-0.006232 

1969 

0.018409 

0.836791 

0.007094 

1992 

-0.005078 

-0.230822 

-0.004118 

1970 

0.024713 

1.123311 

0.018409 

1993 

-0.010686 

-0.485739 

-0.005078 

1971 

0.016289 

0.740413 

0.024713 

1994 

-0.023553 

-1.070573 

-0.010686 

1972 

0.025305 

1.150208 

0.016289 

1995 

-0.027874 

-1.266997 

-0.023553 

1973 

0.025829 

1 .1  74049 

0.025305 

1996 

-0.039805 

-1.809304 

-0.027874 

1974 

0.023744 

1.079278 

0.025829 

1997 

-0.041164 

-1.871079 

-0.039805 

1975 

0.011131 

0.505948 

0.023744 

1998 

-0.013576 

-0.617112 

-0.041164 

1976 

0.018359 

0.834515 

0.011131 

1999 

-0.006674 

-0.303364 

-0.013576 

1977 

0.020416 

0.927990 

0.018359 

2000 

0.010887 

0.494846 

-0.006674 

1978 

0.030781 

1.399135 

0.020416 

2001 

0.007551 

0.343250 

0.010887 

1979 

0.033023 

1.501051 

0.030781 

2002 

0.000453 

0.020599 

0.007551 

1980 

0.031604 

1.436543 

0.033023 

2003 

-0.006673 

-0.303298 

0.000453 

1981 

0.020801 

0.945516 

0.031604 

2004 

-0.015650 

-0.711380 

-0.006673 

1982 

0.038719 

1.759960 

0.020801 

2005 

-0.020198 

-0.918070 

-0.015650 

Notas:  SI  =  residuos  de  la  regresion  de  salarios-productividad  (forma  log). 

S  1( —  1)  =  residuos  rezagados  un  periodo. 

RESEST  =  residuos  estandarizados  =  residuos/error  estandar  de  la  estimacion. 


En  muestras  grandes,  ( ut/a )  esta  distribuida  en  forma  aproximadamente  normal  con  media  cero 
y  varianza  unitaria.  Para  este  ejemplo,  a  —  2.6755. 

A1  examinar  la  grafica  secuencial  de  tiempo  de  la  figura  12.8,  observamos  que  tanto  u,  como 
u,  estandarizada  presentan  un  patron  similar  al  de  la  figura  12. Id,  lo  que  indica  que  tal  vez  las  u, 
no  sean  aleatorias. 

Para  ver  esto  en  forma  diferente,  podemos  graficar  u,  respecto  de  ut~ i,  es  decir,  el  residuo  en  el 
tiempo  t  frente  a  su  valor  en  el  tiempo  (t  —  1),  una  clase  de  prueba  empirica  del  esquema  AR(1). 
Si  los  residuos  no  son  aleatorios,  debemos  obtener  graficas  similares  a  las  que  aparecen  en  la 
figura  12.3.  El  grafico  de  la  regresion  log  de  salarios-productividad  se  presenta  en  la  figura  12.9; 
los  datos  basicos  se  proporcionan  en  la  tabla  12.5.  Como  muestra  esta  figura,  la  mayoria  de  los 
residuos  estan  agrupados  en  el  segundo  (noreste)  y  el  cuarto  (suroeste)  cuadrantes,  lo  cual  indica 
una  correlacion  positiva  fuerte  en  los  residuos. 

Por  naturaleza,  el  metodo  grafico  que  acabamos  de  exponer  es  en  esencia  subjetivo  o  cualita- 
tivo,  aunque  poderoso.  Sin  embargo,  hay  diversas  pruebas  cuantitativas  utiles  para  complementar 
el  enfoque  puramente  cualitativo.  A  continuation  veremos  algunas  de  estas  pruebas. 


II.  Prueba  de  "las  rachas" 

Al  examinar  la  figura  12.8,  destaca  una  caracteristica  peculiar:  al  principio  se  tienen  varios  resi¬ 
duos  negativos,  luego  se  presenta  una  serie  de  residuos  positivos  y  al  final  se  observan  muchos 
residuos,  nuevamente  negativos.  Si  los  residuos  fuesen  puramente  aleatorios,  (',seria  posible  ob- 
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FIGURA  12.9 

Residuos  actuales  y  resi- 
duos  rezagados. 
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servar  tal  patron?  Por  intuicion,  parece  poco  probable.  Esta  intuicion  se  verifica  con  la  llamada 
prueba  de  “las  rachas”,  conocida  tambien  como  prueba  de  Geary,  prueba  no  parametrica.20 

Para  explicar  esta  prueba,  se  anotan  simplemente  los  signos  (+  o  — )  de  los  residuos  obtenidos 
de  la  regresion  salarios-productividad,  que  se  presentan  en  la  primera  columna  de  la  tabla  12.5. 


-)(+++)(—) 

(12.6.1) 


Por  tanto,  hay  8  residuos  negativos,  seguidos  por  21  positivos,  seguidos  por  1 1  negativos,  segui- 
dos  por  3  positivos,  seguidos  por  3  negativos,  para  un  total  de  46  observaciones. 

Definimos  ahora  una  racha  como  una  sucesion  ininterrumpida  de  un  simbolo  o  atributo,  como 
+  o  — .  Definimos  ademas  la  longitud  de  una  racha  como  el  numero  de  elementos  que  contiene. 
En  la  sucesion  mostrada  en  (12.6.1),  hay  5  rachas:  una  racha  de  8  signos  menos  (es  decir,  de 
longitud  8),  una  racha  de  21  signos  mas  (es  decir,  de  longitud  21),  una  racha  de  1 1  signos  menos 
(es  decir,  de  longitud  11),  una  racha  de  3  signos  mas  (es  decir,  de  longitud  3)  y  una  racha  de 
3  signos  menos  (es  decir,  de  longitud  3).  Para  un  mejor  efecto  visual,  presentamos  las  rachas  entre 
parentesis. 

A1  examinar  el  comportamiento  de  las  rachas  en  una  sucesion  de  observaciones  estrictamen- 
te  aleatoria,  es  posible  derivar  una  prueba  de  aleatoriedad  de  las  rachas.  Nos  planteamos  la  si- 
guiente  pregunta:  (.son  muchas  o  muy  pocas  las  5  rachas  observadas  en  el  ejemplo  ilustrativo 
consistente  en  46  observaciones  en  comparacion  con  el  numero  de  rachas  esperadas  en  una  su¬ 
cesion  de  46  observaciones  estrictamente  aleatoria?  Si  hay  muchas  rachas,  significa  que  en  el 


20  En  las  pruebas  no  parametricas  no  se  hacen  supuestos  sobre  la  distribucion  (de  probabilidad)  de 
donde  se  obtuvieron  las  observaciones.  Sobre  la  prueba  de  Geary,  vease  R.C.  Geary,  "Relative  Efficiency  of 
Count  Sign  Changes  for  Assessing  Residual  Autoregression  in  Least  Squares  Regression",  Biometrika,  vol.  57, 
1970,  pp.  123-127. 
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ejemplo  los  residuos  cambian  de  signo  frecuentemente,  y  se  indica  con  esto  una  correlacion 
serial  negativa  (compare  esto  con  la  figura  12.3b).  En  forma  similar,  si  hay  muy  pocas  rachas, 
pueden  indicar  autocorrelacion  positiva,  como  en  la  figura  12.3a).  Entonces,  a  priori,  la  figura 
12.8  indicaria  una  correlacion  positiva  en  los  residuos. 

Ahora,  sea: 

N  —  numero  total  de  observaciones  =  Ni  +  N2 
N\  =  numero  de  simbolos  +  (es  decir,  residuos  +) 

N2  —  numero  de  simbolos  —  (es  decir,  residuos  — ) 

R  =  numero  de  rachas 

Entonces,  segun  la  hipotesis  nula  de  que  los  resultados  sucesivos  (en  este  caso,  residuos)  son  in- 
dependientes,  y  si  suponemos  que  Ni  >  1 0  y  N2  >  1 0,  el  numero  de  rachas  esta  ( asintoticamente ) 
normalmente  distribuido  con 


Media: 


E(R) 


2N\N2 
— —  +  1 
N 


Varianza: 


2  2N\N2(2N\N2  —  N) 

R  ~  (N)2(N  -  1) 


(12.6.2) 


Nota:  N  —  N\+  N2. 

Si  la  hipotesis  nula  de  aleatoriedad  es  sostenible,  y  segun  las  propiedades  de  la  distribucion 
normal,  debemos  esperar  que 

Prob  [E(R)~  1.96ct*  <  R  <  E(R)  +  1.96 cr*]  =  0.95  (12.6.3) 

Es  decir,  la  probabilidad  de  que  el  intervalo  anterior  incluya  a  R  cs  de  95%.  Por  tanto,  tenemos 
la  siguiente  regia: 


Regia  de  decision  No  rechace  la  hipotesis  nula  de  aleatoriedad  a  95%  de  confianza  si  R,  el  numero  de  rachas,  esta 
en  el  intervalo  de  confianza  anterior;  rechace  la  hipotesis  nula  si  la  R  estimada  se  encuentra  fuera 
de  estos  limites.  (Nota:  Puede  elegir  cualquier  nivel  de  confianza  que  desee.) 


Regresemos  al  ejemplo,  donde  sabemos  que  A'j ,  el  numero  de  signos  positivos,  es  24,  y  N2,  el  nu¬ 
mero  de  signos  negativos,  es  22;  ademas  R  —  5.  Con  las  formulas  dadas  en  (12.6.2),  obtenemos: 

E(R)  =  24 

erj  =  11  (12.6.4) 

<7*  =  3.32 

El  intervalo  de  confianza  a  95%  para  R  en  el  ejemplo  es  entonces: 

[24  ±  1.96(3.32)]  =  (17.5,  30.5) 

Obvio,  este  intervalo  no  incluye  5.  Por  tanto,  rechazamos  la  hipotesis  de  que  los  residuos  en  la 
regresion  de  los  salarios  sobre  la  productividad  son  aleatorios,  con  una  confianza  de  95%.  En 
otras  palabras,  los  residuos  muestran  autocorrelacion.  Como  regia  general,  si  hay  autocorrelacion 
positiva,  el  numero  de  rachas  sera  reducido,  mientras  que  si  existe  autocorrelacion  negativa,  el 
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numero  de  rachas  sera  grande.  Por  supuesto,  de  (12.6.2)  sabemos  si  se  tienen  muchas  o  pocas 
rachas. 

Swed  y  Eisenhart  elaboraron  tablas  especiales  con  valores  criticos  de  las  rachas  esperadas 
en  una  sucesion  aleatoria  de  N  observaciones,  si  N\  o  Ay  son  menores  que  20.  Estas  tablas  se 
incluyen  en  el  apendice  D,  tabla  D.6.  Con  esas  tablas,  el  lector  puede  verificar  que  los  residuos 
en  la  regresion  de  salarios  sobre  productividad  en  realidad  no  son  aleatorios;  de  hecho,  estan 
positivamente  correlacionados. 


III.  Prueba  d  de  Durbin-Watson21 

La  prueba  mas  conocida  para  detectar  correlation  serial  es  la  de  los  estadisticos  Durbin  y  Wat¬ 
son.  Se  le  conoce  como  estadlstico  d  de  Durbin-Watson,  que  se  define  como 


d  = 


Et=n  /  - 

r=2<>' 


Mr-1  Y 


r,=i 


(12.6.5) 


que  es  simplemente  la  razon  de  la  suma  de  las  diferencias  al  cuadrado  de  residuos  sucesivos  sobre 
la  SCR.  Observe  que,  en  el  numerador  del  estadistico  d,  el  numero  de  observaciones  es  n  —  1 
porque  se  pierde  una  observation  al  obtener  las  diferencias  consecutivas. 

Una  gran  ventaja  del  estadistico  d  es  que  se  basa  en  los  residuos  estimados,  que  se  calculan  de 
manera  rutinaria  en  los  analisis  de  regresion.  Debido  a  esta  ventaja,  es  frecuente  incluir  el  estadis¬ 
tico  d  de  Durbin-Watson  en  los  informes  de  analisis  de  regresion,  junto  con  otros  estadisticos  de 
resumen,  como  R 2,  R1  ajustada,  ty  F.  Aunque  el  estadistico  d  se  utiliza  ahora  en  forma  rutinaria, 
es  importante  observar  los  supuestos  en  los  cuales  se  basa: 

1 .  El  modelo  de  regresion  incluye  el  termino  del  intercepto.  Si  dicho  termino  no  esta  presente, 
como  en  la  regresion  a  traves  del  origen,  es  esencial  efectuar  de  nuevo  la  regresion  con  dicho 
termino  para  obtener  la  SCR.22 

2.  Las  variables  explicativas,  X,  son  no  estocasticas,  es  decir,  son  fijas  en  muestreo  repetido. 

3.  Las  perturbaciones  ut  se  generan  mediante  el  esquema  autorregresivo  de  primer  orden: 
u,  —  puf-\  +  s,.  Por  tanto,  no  se  pueden  utilizar  para  detectar  esquemas  autorregresivos  de  orden 
superior. 

4.  Se  supone  que  el  termino  de  error  u,  esta  normalmente  distribuido. 

5.  El  modelo  de  regresion  no  incluye  valor(es)  rezagado(s)  de  la  variable  dependiente  como 
una  variable  explicativa.  Por  tanto,  la  prueba  es  inaplicable  a  modelos  del  siguiente  tipo: 

Yt  —  P\  +  PiX2t  +  P2X1,  + - f  fik^kt  +  yYt-i  +  ut  (1 2.6.6) 

donde  1  es  el  valor  de  Y  rezagada  un  periodo.  Tales  modelos  se  conocen  como  modelos 
autorregresivos,  los  cuales  estudiaremos  en  el  capitulo  17. 

6.  No  hay  observaciones  faltantes  en  los  datos.  Por  tanto,  en  la  regresion  de  salarios-produc- 
tividad  de  1960  a  2005,  si  por  alguna  razon  faltaran  observaciones,  por  ejemplo,  de  1978  y  1982, 
el  estadistico  d  no  permitiria  la  ausencia  de  tales  observaciones.23 


21 J.  Durbin  y  G.S.  Watson,  "Testing  for  Serial  Correlation  in  Least-Squares  Regression",  Biometrika,  vol.  38, 
1951,  pp.  159-171. 

22  Sin  embargo,  R.W.  Farebrother  calculo  valores  d  cuando  el  termino  del  intercepto  esta  ausente  del  mo¬ 
delo.  Vease  su  artfculo  "The  Durbin-Watson  Test  for  Serial  Correlation  When  There  Is  No  Intercept  in  the 
Regression",  Econometrica,  vol.  48,  1980,  pp.  1553-1563. 

23  Para  mayores  detalles,  vease  Gabor  Korosi,  Laszlo  Matyas  e  Istvan  P.  Szekey,  Practical  Econometrics,  Ave¬ 
bury  Press,  Inglaterra,  1992,  pp.  88-89. 
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FIGURA  12.10 

Estadistico  d  de  Durbin- 
Watson. 
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El  muestreo  exacto  o  la  distribution  de  probabilidad  del  estadistico  d  dado  en  (12.6.5)  es  di- 
ficil  de  derivar  porque,  como  demostraron  Durbin  y  Watson,  tiene  una  dependencia  compleja  de 
los  valores  presentes  de  X  en  una  muestra  dada.24  Esta  dificultad  se  entiende  porque  d  se  calculo 
a  partir  de  los  ut,  los  cuales,  por  supuesto,  dependen  de  las  X dadas.  Por  consiguiente,  a  diferencia 
de  las  pruebas  t,  F  o  y2,  no  hay  un  valor  critico  unico  que  lleve  al  rechazo  o  a  la  aceptacion  de 
la  hipotesis  nula  de  que  no  hay  correlacion  serial  de  primer  orden  en  las  perturbaciones  Sin 
embargo,  Durbin  y  Watson  lograron  encontrar  un  limite  inferior  d/  y  un  limite  superior  du  tales 
que  si  el  valor  d  calculado  de  (12.6.5)  cae  por  fuera  de  estos  valores  criticos,  puede  tomarse  una 
decision  respecto  de  la  presencia  de  correlacion  serial  positiva  o  negativa.  Ademas,  estos  limites 
solo  dependen  del  numero  de  observaciones  n  y  del  numero  de  variables  explicativas,  y  no  de  los 
valores  que  adquieren  estas  variables  explicativas.  Durbin  y  Watson  tabularon  estos  limites  para 
n,  de  6  a  200  y  hasta  20  variables  explicativas,  y  se  presentan  en  el  apendice  D,  tabla  D.5  (hasta 
20  variables  explicativas). 

El  procedimiento  de  prueba  aplicado  se  explica  mejor  con  ayuda  de  la  figura  12.10,  la  cual 
muestra  que  los  limites  de  d  son  0  y  4.  Estos  se  determinan  al  expandir  (12.6.5)  para  obtener 

Y'  u 2  +  W  il2  .  -  2V  utut-\ 

d  =  ^  1  ^  ^  (1 2.6.7) 

Como  ^  w2  yJ2  m2_i  difieren  solo  en  una  observation,  son  aproximadamente  iguales.  Por  consi¬ 
guiente,  establecemos  que  £  m2_i  ^  5Z  “r  y  (12.6.7)  se  escribe  como 


d 


2 


/  1\ 

V  Efi?  ) 


(12.6.8) 


donde  ^  significa  aproximadamente  igual. 
Ahora  definimos 


Efi? 


(12.6.9) 


24 


Sin  embargo,  consulte  el  analisis  sobre  la  prueba  Durbin-Watson  "exacta"  mas  adelante  en  la  seccion. 
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como  el  coeficiente  de  autocorrelacion  muestral  de  primer  orden,  un  estimador  de  p.  (Vease  la 
nota  9.)  Con  ( 12.6.9)  expresamos  (12.6.8)  como 

«/«2(l-/3)  (12.6.10) 

Pero,  como  —  1  <  P<  1  (12.6.10),  implica  que 

0  <  d  <  4  (12.6.11) 

Estos  son  los  llmites  de  d\  todo  valor  d  estimado  debe  caer  dentro  de  estos  llmites. 

Es  evidente  de  la  ecuacion  (12.6.10)  que  si  p  —  0,  d  —  2;  es  decir,  si  no  hay  correlacion  serial 
(de  primer  orden),  esperamos  que  d  este  alrededor  de  2.  Por  consiguiente,  como  regia  practica, 
si  en  una  aplicacion  vemos  que  d  es  igual  a  2,  podemos  suponer  que  no  hay  autocorrelacion 
de  primer  orden,  positiva  o  negativa.  Si  p  —  +1,  indica  una  correlacion  positiva  perfecta  en 
los  residuos,  d  0.  Por  consiguiente,  entre  mas  cercano  este  d  a  0,  mayor  sera  la  evidencia  de 
correlacion  serial  positiva.  Esta  relation  debe  ser  evidente  de  (12.6.5)  porque,  si  hay  autocorre¬ 
lacion  positiva,  las  ut  apareceran  agrupadas,  y  sus  diferencias,  por  consiguiente,  tenderan  a  ser 
pequenas.  Como  resultado,  la  suma  de  cuadrados  del  numerador  sera  menor  en  comparacion  con 
la  suma  de  cuadrados  del  denominador,  el  cual  es  un  valor  que  permanece  fijo  para  cualquier 
regresion  dada. 

Si  p  —  —  1  es  decir,  hay  una  correlacion  negativa  perfecta  entre  los  valores  consecutivos  de 
los  residuos,  d  4.  Por  tanto,  entre  mas  se  acerque  d  a  4,  mayor  sera  la  evidencia  de  correla¬ 
cion  serial  negativa.  De  nuevo,  al  analizar  (12.6.5),  esto  es  comprensible:  si  hay  autocorrelacion 
negativa,  una  u,  positiva  tendera  a  estar  seguida  por  una  ut  negativa  y  viceversa,  de  forma  que 
| iit  ~  ut~ 1 1  sera  usualmente  mayor  que  \ut\.  Por  consiguiente,  el  numerador  de  d  sera  comparati- 
vamente  mayor  que  el  denominador. 

El  mecanismo  de  la  prueba  de  Durbin- Watson  es  el  siguiente,  si  suponemos  que  se  cumplen 
los  supuestos  de  la  prueba: 

1 .  Efectuar  la  regresion  por  MCO  y  obtener  los  residuos. 

2.  Calcular  d  a  partir  de  (12.6.5).  (La  mayoria  de  los  programas  de  computadora  incluye  este 
calculo.) 

3.  Para  un  tamano  de  muestra  dado  y  un  numero  de  variables  explicativas  dado,  determinar  los 
valores  criticos  r4  y  djj. 

4.  Ahora  se  siguen  las  reglas  de  decision  de  la  tabla  12.6.  Para  facilitar  su  comprension,  estas 
reglas  se  resumen  en  la  figura  12.10. 

Para  ilustrar  el  mecanismo,  retome  la  regresion  salarios-productividad.  De  los  datos  en  la  tabla 
12.5  vemos  que  el  valor  estimado  de  d  es  0.2175,  lo  que  indica  una  correlacion  serial  positiva  en 
los  residuos.  A  partir  de  las  tablas  de  Durbin- Watson,  encontramos  que,  para  46  observaciones  y 
una  variable  explicativa,  dL  —  1.475  y  dv  —  1.566  en  el  nivel  de  5%.  Como  el  valor  d  calculado 
de  0.2175  esta  por  debajo  de  dL,  no  podemos  rechazar  la  hipotesis  de  que  hay  correlacion  serial 
positiva  en  los  residuos. 

A  pesar  de  ser  muy  popular,  la  prueba  d  tiene  una  gran  desventaja:  cuando  cae  en  la  zona  de 
indecision,  no  se  puede  concluir  si  hay  o  no  autocorrelacion  (de  primer  orden).  Para  resolver 


TABLA  12.6 

Prueba  d  de  Durbin- 
Watson:  reglas  de 
decision 


Hipotesis  nula 

Decision 

Si 

No  hay  autocorrelacion  positiva 

Rechazar 

0  <  d  <  dL 

No  hay  autocorrelacion  positiva 

Sin  decision 

dL<  d  <  du 

No  hay  correlacion  negativa 

Rechazar 

4  -  di  <  d  <  4 

No  hay  correlacion  negativa 

Sin  decision 

4-du<d<4  —  dL 

No  hay  autocorrelacion,  positiva  o  negativa 

No  rechazar 

du  <  d  <  4  —  du 
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este  problema,  diversos  autores  proponen  modificaciones  a  la  prueba  d ,  las  cuales  escapan  al 
alcance  de  este  libro.25  En  muchas  situaciones,  sin  embargo,  se  observa  que  el  limite  superior  dy 
es  aproximadamente  el  verdadero  limite  de  significancia,  y,  por  consiguiente,  en  el  caso  de  que 
el  valor  d  estimado  se  encuentre  en  la  zona  de  indecision,  se  puede  utilizar  el  siguiente  procedi- 
miento  de  prueba  d  modificada.  Con  el  nivel  de  significancia  a, 

1.  :[().()  —  0  frente  a  Hp.p  >  0.  Si  el  valor  estimado  d  <  du,  rechace  Hq  en  el  nivel  a.  Es  decir, 
hay  correlacion  positiva  estadisticamente  significativa. 

2.  H0:p  —  0  frente  a  Hp.p  <  0.  Si  el  valor  estimado  (4  —  d)  <  dy,  rechace  H0  en  el  nivel  a;  es 
decir,  hay  evidencia  estadisticamente  significativa  de  autocorrelacion  negativa. 

3.  Ha\p  —  0  frente  aHp.p^  0.  Rechace  Hq  en  el  nivel  2a  si  d  <  dy  o  (4  —  d)  <  dy,  es  decir,  hay 
evidencia  estadisticamente  significativa  de  autocorrelacion,  positiva  o  negativa. 

Se  debe  senalar  que  la  zona  de  indecision  se  estrecha  conforme  aumenta  el  tamaiio  de  la  mues- 
tra,  lo  cual  se  observa  claramente  en  las  tablas  Durbin- Watson.  Por  ejemplo,  con  4  regresoras  y 
20  observaciones,  los  valores  d  inferiores  y  superiores  a  5%  son  0.894  y  1.828,  respectivamente; 
pero  esos  valores  son  1.515  y  1.739,  cuando  el  tamaiio  de  la  muestra  es  de  75. 

El  software  SHAZAM  calcula  una  prueba  d  exacta ;  es  decir,  da  el  valor  p,  la  probabilidad 
exacta  del  valor  d  calculado.  Con  las  computadoras  modernas,  ya  no  es  dificil  determinar  el 
valor p  del  estadistico  d  calculado.  Con  SHAZAM  (version  9)  para  la  regresion  de  salarios  sobre 
productividad,  tenemos  que  el  valor  p  del  d  calculado  es  0.2176,  practicamente  cero,  por  lo  que 
confirmamos  la  conclusion  anterior  basada  en  las  tablas  Durbin- Watson. 

La  prueba  d  de  Durbin- Watson  es  ya  tan  clasica  que  los  profesionales  suelen  olvidar  los 
supuestos  en  los  que  se  basa;  en  particular:  1)  las  variables  explicativas,  o  regresoras,  son  no 
estocasticas,  2)  el  termino  de  error  sigue  la  distribucion  normal,  3)  los  modelos  de  regresion 
no  incluyen  el  (los)  valor(es)  rezagado(s)  de  la  regresada  y  4)  solo  se  toma  en  cuenta  la  correla¬ 
cion  serial  de  primer  orden.  Todos  estos  supuestos  son  muy  importantes  en  la  aplicacion  de  la 
prueba  d.  Debe  anadirse  que  un  estadistico  d  significativo  no  necesariamente  indica  autocorrela¬ 
cion.  Mas  bien,  puede  indicar  una  omision  de  las  variables  pertinentes  en  el  modelo. 

Si  un  modelo  de  regresion  contiene  valor(es)  rezagado(s)  de  la  regresada,  el  valor  d  a  me- 
nudo  se  aproxima  a  2,  lo  cual  indicaria  que  no  hay  autocorrelacion  (de  primer  orden)  en  dichos 
modelos.  Por  tanto,  hay  un  sesgo  implicito  que  impide  descubrir  la  autocorrelacion  (de  primer 
orden)  en  tales  modelos.  Esto  no  quiere  decir  que  los  modelos  autorregresivos  esten  exentos  de 
problemas  de  autocorrelacion.  De  hecho,  Durbin  elaboro  la  llamada  prueba  h  para  probar  en 
tales  modelos  la  correlacion  serial;  sin  embargo,  no  es  tan  poderosa,  en  sentido  estadistico,  como 
la  prueba  Breusch-Godfrey,  que  en  breve  analizaremos,  asi  que  no  hay  necesidad  de  la  prueba 
h.  Sin  embargo,  por  su  importancia  historica,  la  abordaremos  en  el  ejercicio  12.36. 

Asimismo,  si  los  terminos  de  error  ut  no  son  NI1D,  tal  vez  no  sea  confiable  la  prueba  d  ruti- 
naria.26  Al  respecto,  la  prueba  de  las  rachas  tiene  la  ventaja  de  que  no  hace  ningun  supuesto 
en  cuanto  a  la  distribucion  (de  probabilidad)  respecto  del  termino  de  error.  Sin  embargo,  si 
la  muestra  es  grande  (tecnicamente  infinita)  se  puede  utilizar  el  d  de  Durbin- Watson,  pues  se 
demuestra  que:27 

V^1-M«A(0,1)  (12.6.12) 


25  Para  mayores  detalles,  vease  Thomas  B.  Fomby,  R.  Carter  Hill  y  Stanley  R.  Johnson,  Advanced  Econometric 
Methods,  Springer-Verlag,  Nueva  York,  1984,  pp.  225-228. 

26  Para  un  analisis  avanzado,  vease  Ron  C.  Mittelhammer,  George  G.  Judge  y  Douglas  J.  Millar,  Econometric 
Foundations,  Cambridge  University  Press,  Nueva  York,  2000,  p.  550. 

27  Vease  James  Davidson,  Econometric  Theory,  Blackwell,  Nueva  York,  2000,  p.  161. 
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Es  decir,  en  muestras  grandes,  el  estadlstico  d,  como  esta  transformado  en  (12.6.12),  sigue  la 
distribution  normal  estandarizada.  A  proposito,  en  vista  de  la  relation  entre  d  y  p,  el  coeficiente 
estimado  de  autocorrelacion  de  primer  orden,  mostrado  en  (12.6.10),  se  deduce  que 

0,1)  (12.6.13) 

es  decir,  en  muestras  grandes,  la  raiz  cuadrada  del  tamano  de  la  muestra  multiplicada  por  el  coefi¬ 
ciente  de  autocorrelacion  de  primer  orden  tambien  sigue  la  distribution  normal  estandarizada. 

Como  una  ilustracion  de  esta  prueba,  para  el  ejemplo  de  la  regresion  de  los  salarios  sobre  la 
productividad  descubrimos  que  d  —  0.2176,  con  n  —  46.  Por  tanto,  de  (12.6.12)  tenemos  que 

(  0.2176\ 

V46  (  1 - - —  j  «  6.0447 

Asintoticamente,  si  fuese  verdadera  la  hipotesis  nula  de  que  no  existe  autocorrelacion  (de  primer 
orden),  la  probabilidad  de  obtener  un  valor  Z  (es  decir,  la  variable  normal  estandarizada)  igual  a 
6.0447  o  mayor  seria  extremadamente  pequena.  Recuerde  que  para  una  distribution  normal  es¬ 
tandarizada,  el  valor  critico  Z  a  5%  (de  dos  colas)  tan  solo  es  de  1.96,  y  el  valor  critico  Za  1% 
es  de  casi  2.58.  Aunque  el  tamano  de  la  muestra  es  unicamente  de  46,  para  propositos  practi¬ 
ces  puede  ser  lo  bastante  grande  para  utilizar  la  aproximacion  normal.  La  conclusion  es  aun  la 
misma,  a  saber,  que  los  residuos  de  la  regresion  de  los  salarios  sobre  la  productividad  presentan 
autocorrelacion. 

Pero  el  problema  mas  grave  con  la  prueba  d  es  el  supuesto  de  que  las  regresoras  son  no  es- 
tocasticas;  es  decir,  sus  valores  son  fijos  en  muestras  repetidas.  De  no  ser  asi,  la  prueba  d  no 
es  valida  para  muestras  finitas,  o  pequenas,  ni  para  muestras  grandes.28  Y  en  vista  de  que  este 
supuesto  a  menudo  resulta  dificil  de  sostener  en  los  modelos  economicos  con  datos  de  series  de 
tiempo,  un  autor  afirma  que  el  estadlstico  Durbin- Watson  tal  vez  no  sea  util  en  la  econometria 
con  series  de  tiempo.29  Su  opinion  es  que  hay  pruebas  mas  utiles  para  la  autocorrelacion,  pero 
se  basan  en  muestras  grandes.  Analizaremos  a  continuation  una  de  estas  pruebas,  la  prueba  de 
Breusch-Godfrey. 


IV.  Una  prueba  general  de  autocorrelacion: 
la  prueba  de  Breusch-Godfrey  (BF)30 

Para  evitar  algunos  inconvenientes  de  la  prueba  d  de  Durbin- Watson  de  autocorrelacion,  los  esta- 
disticos  Breusch  y  Godfrey  elaboraron  una  prueba  para  la  autocorrelacion  que  es  general  porque 
permite:  1)  regresoras  no  estocasticas,  como  los  valores  rezagados  de  la  regresada;  2)  esquemas 
autorregresivos  de  orden  mayor,  como  el  AR(  1),  AR(2),  etc.;  y  3)  promedios  moviles  simples  o 
de  orden  superior  de  los  terminos  de  error  de  ruido  bianco,  como  s,  en  (12.2.1). 31 

Sin  abordar  los  detalles  matematicos,  los  cuales  puede  consultar  en  la  bibliografia,  la  prueba 
BG,  que  tambien  se  conoce  como  prueba  ML,32  procede  de  la  siguiente  manera:  utilizamos  el 


28  Ibid.,  p.  1 61 . 

29Fumio  Hayashi,  Econometrics,  Princeton  University  Press,  Princeton,  Nueva  Jersey,  2000,  p.  45. 

30Vease  L.G.  Godfrey,  "Testing  Against  General  Autoregressive  and  Moving  Average  Error  Models  When  the 
Regressor  include  Lagged  Dependent  Variable",  Econometrica,  vol.  46,  1 978,  pp.  1 293-1  302,  y  T.S.  Breusch, 
"Testing  for  Autocorrelation  in  Dynamic  Linear  Models",  Australian  Economic  Papers,  vol.  17,  1978,  pp.  334- 
355. 

31  Por  ejemplo,  en  la  regresion  Yt  =  fa  +  +  ut  el  termino  de  error  puede  expresarse  por  medio  de 

ut  =  et  +  +  7.2£t— 2,  que  representa  un  promedio  movil  de  tres  periodos  del  termino  de  error  de  ruido 

bianco  et. 

32  La  prueba  se  basa  en  el  principio  multiplicador  de  Lagrange,  mencionado  brevemente  en  el 
capftulo  8. 
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modelo  de  regresion  de  dos  variables  para  ilustrar  la  prueba,  aunque  se  pueden  aiiadir  al  modelo 
muchas  regresoras.  Asimismo,  se  pueden  incluir  en  el  valores  rezagados  de  la  regresada.  Sea 

Yt  =  Pi+P2Xt  +  ut  (12.6.14) 

Suponga  que  el  termino  de  error  u,  sigue  el  esquema  autorregresivo  de  orden  p,  AR (p),  del  si- 
guiente  modo: 


ut  —  piut-i  +  PiUt-2  +  ■  ■  •  +  PpUt—p  +  st  (12.6.15) 

donde  et  es  un  termino  de  error  de  ruido  bianco,  como  ya  examinamos.  Lo  anterior  es  una  simple 
extension  del  esquema  AR(1),  como  el  lector  ya  habra  reconocido. 

La  hipotesis  nula  Hq  por  demostrar  es 

H0'.p\  —  p2  —  ■■■  —  PP  —  0  (12.6.16) 

Es  decir,  no  existe  correlacion  serial  de  ningun  orden.  La  prueba  BG  implica  los  siguientes 
pasos: 

1.  Estime  (12.6.14)  mediante  MCO  y  obtenga  los  residuos  ut. 

2.  Haga  la  regresion  u,  sobre  la  A,  original  (si  hay  mas  de  una  variable  X cn  el  modelo  original, 
incluyalas  tambien)  y  ut~\,  ut_ 2, . . . ,  ut~p,  donde  estas  ultimas  son  los  valores  rezagados  de  los 
residuos  estimados  en  el  paso  1 .  Por  tanto,  si  p  —  4,  introduciremos  en  el  modelo  cuatro  valores 
rezagados  de  los  residuos  como  regresoras  adicionales.  Observe  que  para  hacer  esta  regresion 
solo  hay  ( n  —  p)  observaciones  (ppor  que?).  En  resumen,  realice  la  siguiente  regresion: 

U t  —  al  +  OI2X,  +  PlUt-l  +  P2Ut-2  +  '  '  '  +  PpUt-p  +  st  (12.6.17) 

y  obtenga  R2  de  esta  regresion  (auxiliar).33 

3.  Si  el  tamano  de  la  muestra  es  grande,  Breusch  y  Godfrey  demostraron  que 

(M  —  P)R2  ~  Xp  (12.6.18) 

Es  decir,  asintoticamente,  n  —  p  veces  el  valor  de  R1  obtenido  en  la  regresion  auxiliar  (12.6.17) 
sigue  la  distribucion  ji  cuadrada  con  p  gl.  Si  en  una  aplicacion  (n  —  p)R2  excede  el  valor  critico 
ji  cuadrada  en  el  nivel  de  significancia  seleccionado,  podemos  rechazar  la  hipotesis  nula,  en  cuyo 
caso,  por  lo  menos  una  p  en  ( 12.6. 15)  es  significativamente  diferente  de  cero. 

Pueden  mencionarse  los  siguientes  puntos  practicos  sobre  la  prueba  BG: 

1 .  Las  regresoras  incluidas  en  el  modelo  de  regresion  pueden  contener  valores  rezagados  de 
la  variable  regresada  Y;  es  decir,  Yt-\,  Yt- 2,  etc.,  pueden  aparecer  como  variables  explicativas. 
Contraste  este  modelo  con  la  restriccion  de  la  prueba  de  Durbin- Watson,  que  no  permite  valores 
rezagados  de  la  variable  regresada  entre  las  variables  explicativas. 

2.  Como  ya  senalamos,  la  prueba  BG  es  aplicable  aunque  las  perturbaciones  sigan  un  proceso 
de  promedios  moviles  (PM)  de  orden p,  es  decir,  aunque  las  n,  se  generen  como  sigue: 

Ut  —  St  +  Li£/_i  +  \2St-2  +  •  ■  ■  +  hpSt-p  (12.6.19) 

donde  s,  es  un  termino  de  error  de  ruido  bianco;  es  decir,  el  termino  de  error  que  satisface  todos 
los  supuestos  clasicos. 


33  La  razon  para  incluir  la  regresora  original  X  en  el  modelo  es  permitir  que  X  no  sea  estrictamente  no  esto- 
castica.  Pero  si  es  estrictamente  no  estocastica,  quiza  se  omita  del  modelo.  Sobre  este  tema,  consulte  Jeffrey 
M.  Wooldridge,  Introductory  Econometrics:  A  Modern  Approach,  South-Western  Publishing  Co.,  2003,  p.  386. 
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En  los  capitulos  sobre  la  econometrla  de  series  de  tiempo  estudiaremos  con  cierto  detalle  los 
procesos  de  promedio  movil  y  los  autorregresivos  de  orden  p. 

3.  Si  p  —  1  en  (12.6.15),  que  significa  autorregresion  de  primer  orden,  la  prueba  BG  se 
conoce  como  prueba  m  de  Durbin. 

4.  Una  desventaja  de  la  prueba  BG  es  que  el  valor  de  p,  la  longitud  del  rezago,  no  puede 
especificarse  a  priori.  Es  inevitable  algun  grado  de  experimentacion  con  el  valor  de  p.  A  veces 
se  pueden  utilizar  los  llamados  criterios  de  informacion  Akaike  y  Schwarz  para  seleccionar  la 
longitud  del  rezago.  Estudiaremos  estos  criterios  en  el  capitulo  13  y  mas  adelante,  en  los  capitu¬ 
los  sobre  econometria  de  series  de  tiempo. 

5.  Con  los  valores  de  las  variables  X  y  los  valores  rezagados  de  u,  la  prueba  supone  que  la 
varianza  de  u  en  la  ecuacion  ( 12.6. 15)  es  homoscedastica. 


Ilustracion  de  la 
prueba  BG:  Rela- 
cion  entre  salarios 
y  productividad 


Para  mostrar  la  prueba,  la  aplicaremos  a  este  ejemplo  ilustrativo.  Con  un  esquema  AR(6)  obtu- 
vimos  los  resultados  del  ejercicio  12.25.  De  los  resultados  de  la  regresion  dados  ahl,  se  observa 
que  (n  —  p)  =  40  y  R2  =  0.7498.  Por  tanto,  al  multiplicar  estos  dos  valores  se  obtiene  un  valor 
ji  cuadrada  de  29.992.  Para  6  gl  (,;por  que?),  la  probabilidad  de  obtener  un  valor  ji  cuadrada 
igual  o  mayor  que  29.992  es  demasiado  pequena;  la  tabla  ji  cuadrada  del  apendice  D.4  muestra 
que  la  probabilidad  de  obtener  un  valor  ji  cuadrada  de  1 8.5476  o  mayor  es  de  solo  0.005.  Por 
tanto,  para  los  mismos  gl,  la  probabilidad  de  obtener  un  valor  ji  cuadrada  de  casi  30  debe  ser 
demasiado  pequena.  De  hecho,  el  valor  p  real  es  casi  cero. 

En  consecuencia,  la  conclusion  es  que,  para  este  ejemplo,  al  menos  una  de  las  seis  autocorre- 
laciones  debe  ser  distinta  de  cero. 

Al  tratar  de  variar  las  longitudes  del  rezago  de  1  a  6,  encontramos  que  solo  el  coeficiente 
AR(1 )  es  significativo,  lo  cual  sugiere  que  no  hay  necesidad  de  considerar  mas  que  un  rezago.  En 
esencia,  la  prueba  BG,  en  este  caso,  resulta  ser  la  prueba  m  de  Durbin. 


^Por  que  tantas  pruebas  para  la  autocorrelation? 

La  respuesta  es  que  “.  .  .  no  se  ha  juzgado  de  manera  inequivoca  a  ninguna  prueba  en  particular 
como  la  mejor  [es  decir,  la  mas  poderosa  en  el  sentido  estadistico],  y  por  tanto  el  analista  todavia 
esta  en  la  nada  envidiable  posicion  de  considerar  una  variada  coleccion  de  procedimientos  de 
prueba  para  detectar  la  presencia,  la  estructura,  o  ambas,  de  la  autocorrelacion”.34  Por  supuesto, 
un  argumento  similar  vale  respecto  de  las  diversas  pruebas  de  heteroscedasticidad  analizadas  en 
el  capitulo  anterior. 


12.7  Que  hacer  cuando  hay  autocorrelacion: 
medidas  correctivas 


Si  despues  de  aplicar  una  o  mas  pruebas  de  diagnostico  para  la  autocorrelacion  de  las  analizadas 
en  la  seccion  previa  encontramos  autocorrelacion,  ^que  hacer?  Hay  cuatro  opciones: 

1 .  Trate  de  averiguar  si  se  trata  de  autocorrelacion  pura  y  no  el  resultado  de  una  mala  espe- 
cificacion  del  modelo.  Como  analizamos  en  la  seccion  12.1,  a  veces  se  observan  patrones  en  los 
residuos  porque  el  modelo  esta  mal  especificado  — es  decir,  se  excluyeron  variables  importan- 
tes —  o  porque  su  forma  funcional  no  es  correcta. 


34  Ron  C.  Mittelhammer  et  al.,  op.  cit.,  p.  547.  Recuerde  que  la  potencia  de  una  prueba  estadistica 
es  1  menos  la  probabilidad  de  cometer  un  error  de  tipo  II;  es  decir,  1  menos  la  probabilidad  de  aceptar  una 
hipotesis  falsa.  La  potencia  maxima  de  una  prueba  es  1,  y  la  minima  es  0.  Mientras  mas  cerca  de  cero  este 
la  potencia  de  una  prueba,  peor  sera  esta,  y  mientras  mas  cerca  este  de  1,  mas  poderosa  sera.  Lo  que  estos 
autores  afirman  en  esencia  es  que  no  existe  una  prueba  de  autocorrelacion  que  sea  la  mas  poderosa. 


Capftulo  1  2  Autocorrelation:  i que pasa  si  los  terminos  de  error  estan  correlacionados?  441 


2.  Si  se  trata  de  autocorrelacion  pura,  se  puede  utilizar  una  transformacion  apropiada  del 
modelo  original  de  manera  que  en  el  modelo  transformado  no  se  presente  el  problema  de  la 
autocorrelacion  (pura).  Como  en  la  heteroscedasticidad,  habra  que  emplear  algun  metodo  gene- 
ralizado  de  minimos  cuadrados  (MCG). 

3.  En  muestras  grandes  se  puede  utilizar  el  metodo  Newey-West  para  obtener  los  errores 
estandar  de  los  estimadores  de  MCO  corregidos  para  autocorrelacion.  Este  metodo  en  realidad  es 
una  extension  del  metodo  de  errores  estandar  consistentes  con  heteroscedasticidad  de  White,  que 
analizamos  en  el  capitulo  anterior. 

4.  En  algunas  situaciones  se  puede  conservar  el  metodo  MCO. 

Debido  a  la  importancia  de  cada  uno  de  estos  temas,  les  dedicamos  una  seccion. 


12.8  Especificacion  incorrecta  del  modelo  frente  a 
autocorrelacion  pura 


Consideremos  de  nuevo  la  regresion  de  salarios  sobre  productividad  dada  en  (12.5.2).  Vimos  que 
el  valor  d  era  igual  a  0.2176,  y  con  base  en  la  prueba  d  de  Durbin- Watson  concluimos  que  existia 
una  correlacion  positiva  en  el  termino  de  error.  6Pudo  surgir  dicha  correlacion  porque  el  modelo 
no  estaba  correctamente  especificado?  Como  los  datos  subyacentes  a  la  regresion  (12.5.1)  son  del 
tipo  serie  de  tiempo,  es  muy  probable  que  los  salarios  y  la  productividad  muestren  tendencias.  De 
ser  asi,  se  requiere  incluir  la  variable  de  tiempo  o  tendencia,  t,  en  el  modelo,  a  fin  de  observar  la 
relation  entre  los  salarios  y  la  productividad  descontando  la  tendencia  de  las  dos  variables. 

Para  probar  lo  anterior,  incluimos  la  variable  tendencia  en  (12.5.2)  y  obtuvimos  los  siguientes 
resultados: 


Y,=  0.1209  + 

1.0283W,  - 

0.0075t 

ee  =  (0.3070) 

(0.0776) 

(0.0015) 

t  =  (0.3939) 

(13.2594) 

(-4.8903) 

R2  =  0.9900;  d  =  0.4497 

La  interpretation  de  este  modelo  es  sencilla:  con  el  tiempo,  el  indice  de  los  salarios  reales  dis- 
minuyo  casi  0.75  unidades  al  ano.  Despues  de  tener  esto  en  cuenta,  si  el  indice  de  productividad 
aumentara  una  unidad,  en  promedio,  el  salario  real  se  incrementaria  casi  una  unidad.  Resulta 
interesante  notar  que  incluso  teniendo  en  cuenta  la  variable  de  tendencia,  el  valor  d  sigue  siendo 
muy  bajo,  lo  cual  indica  que  (12.8.1)  presenta  autocorrelacion  pura  y  no  necesariamente  hay  un 
error  de  especificacion. 

<',C6mo  sabemos  que  (12.8.1)  es  la  especificacion  correcta?  Para  averiguarlo,  hacemos  la  re¬ 
gresion  de  Y  sobre  X  y  X2  para  probar  la  posibilidad  de  que  el  indice  de  salarios  reales  este 
relacionado  de  forma  no  lineal  con  el  indice  de  productividad.  Los  resultados  de  esta  regresion 
son  los  siguientes: 

Yt=-  1.7843  +  2.1963W,  -  0.1752W,2 

t=  (-2.7713)  (7.5040)  (-5.2785)  (12.8.2) 

R2  =  0.9906  d=  0.3561 

Corresponde  al  lector  interpretar  estos  resultados.  Para  los  propositos  presentes,  examine  el  valor 
Durbin- Watson,  aun  muy  bajo,  lo  que  indica  que  todavia  hay  correlacion  serial  positiva  en  los 
residuos. 

Se  puede  concluir  con  toda  seguridad,  a  partir  del  analisis  anterior,  que  la  regresion  de  los 
salarios  sobre  la  productividad  presenta  autocorrelacion  pura,  y  no  necesariamente  un  sesgo  de 
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especificacion.  A1  conocer  las  consecuencias  de  la  autocorrelacion,  quiza  desearlamos  empren- 
der  algunas  acciones  correctivas,  lo  cual  haremos  en  breve. 

A  proposito,  en  todas  las  regresiones  de  salarios  sobre  productividad  que  se  han  presentado, 
se  aplico  la  prueba  de  normalidad  de  Jarque-Bera  y  se  encontro  que  los  residuos  estaban 
normalmente  distribuidos,  lo  cual  resulta  reconfortante  porque  la  prueba  d  supone  la  normalidad 
para  el  termino  de  error. 


12.9  Correccion  de  la  autocorrelacion  (pura): 

el  metodo  de  los  mmimos  cuadrados  generalizados  (MCG) 


Como  conocemos  las  consecuencias  de  la  autocorrelacion,  sobre  todo  la  falta  de  eficiencia  de 
los  estimadores  de  MCO,  quiza  deseemos  corregir  el  problema.  El  remedio  depende  del  conoci- 
miento  respecto  a  la  naturaleza  de  la  interdependencia  entre  las  perturbaciones;  es  decir,  conocer 
la  estructura  de  la  autocorrelacion. 

Para  empezar,  considere  el  modelo  de  regresion  de  dos  variables: 

Yt=pl+p2Xt  +  ut  (12.9.1) 

y  suponga  que  el  termino  de  error  sigue  el  esquema  AR(  1),  a  saber: 

ut  —  pu,-\  +  st  —  1  <  p  <  1  (12.9.2) 

Ahora  consideremos  dos  casos:  1)  se  conoce  p  y  2)  no  se  conoce  p,  pero  tiene  que  estimarse. 


Cuando  se  conoce  p 

Si  se  conoce  el  coeficiente  de  autocorrelacion  de  primer  orden,  el  problema  de  la  autocorrelacion 
se  resuelve  muy  facil.  Si  (12.9.1)  es  valida  en  el  tiempo  t,  tambien  lo  es  para  el  tiempo  (t  —  1). 
Por  tanto, 


Y,-i  =  Pi  +  P2Xt_x  +  ut-!  (12.9.3) 

A1  multiplicar  (12.9.3)  por  p  en  ambos  miembros,  obtenemos 

pYt- 1  =  p/3\  +  pP2Xt_x  +  put- 1  (12.9.4) 

Si  restamos  (12.9.4)  de  (12.9.1),  resulta 

(Y,  -  pYt_x)  =  px{\  -  p)  +  p2(X,  -  pXt_x)  +  st  (12.9.5) 

donde  et  —  (ut  —  put-i). 

Expresamos  (12.9.5)  como 


y;  =  p*  +  p\x*t  +  Et 


(12.9.6) 


donde  p\  =  px{  1  -  p),  Y*  =(Yt-  pY,_x),  X*  =  ( X ,  -  pX,_x)  y  p*  =  p2. 

Como  el  termino  de  error  en  (12.9.6)  satisface  los  supuestos  usuales  de  MCO,  los  aplicamos  a 
las  variables  transformadas  Y*  y  X*  para  obtener  estimadores  con  todas  las  propiedades  optimas; 
a  saber,  que  sean  MELI.  En  efecto,  llevar  a  cabo  la  regresion  (12.9.6)  equivale  a  utilizar  los  mi- 
nimos  cuadrados  generalizados  (MCG)  del  capitulo  anterior  (recuerde  que  los  MCG  no  son  mas 
que  los  MCO  aplicados  al  modelo  transformado  que  satisface  los  supuestos  clasicos). 

La  regresion  (12.9.5)  se  conoce  como  generalizada,  cuasi  generalizada  o  ecuacion  en  di- 
ferencias.  Implica  la  regresion  de  Y  sobre  X,  pero  no  en  la  forma  original,  sino  en  la  forma  de 
diferencias,  que  se  obtiene  al  restar  una  proporcion  (—  p)  del  valor  de  una  variable  en  el  periodo 
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anterior,  de  su  valor  en  el  periodo  actual.  En  este  proceso  de  diferenciacion  se  pierde  una  ob¬ 
servacion,  debido  a  que  la  primera  observacion  no  tiene  antecedentes.  Para  evitar  dicha  perdida, 
la  primera  observacion  se  transforma  de  la  siguiente  manera:35  Y\yJ\  —  p2  y  X\f\  —  p1.  Esta 
transformacion  se  conoce  como  transformacion  Prais-Winsten. 


Cuando  no  se  conoce  p 

Aunque  es  sencillo  aplicar  la  regresion  en  diferencias  generalizada  dada  en  (12.9.5),  por  lo  ge¬ 
neral  es  dificil  efectuarla  en  la  practica  porque  pocas  veces  se  conoce  p.  Por  consiguiente,  se 
requieren  formas  de  calcular  p.  Elay  varias  posibilidades. 

Metodo  de  primeras  diferencias 

Como  p  se  encuentra  entre  0  y  ±1,  se  puede  partir  de  dos  posiciones  extremas.  En  un  extremo, 
se  puede  suponer  que  p  =  0,  es  decir,  no  hay  correlacion  serial  (de  primer  orden)  y  en  el  otro 
extremo,  se  puede  considerar  que  p  =  ±  1 ,  es  decir,  autocorrelacion  positiva  o  negativa  perfecta. 
En  realidad,  cuando  se  efectua  una  regresion,  suele  suponerse  que  no  hay  autocorrelacion  y  luego 
se  deja  que  la  prueba  de  Durbin- Watson  u  otras  pruebas  demuestren  si  el  supuesto  es  justificado. 
Sin  embargo,  si  p  =  +1,  la  ecuacion  en  diferencias  generalizada  (12.9.5)  se  reduce  a  la  ecuacion 
en  primeras  diferencias,  pues 

y,  -  r,_!  =  f(xt  -  x,_i)  +  (Ut  -  ii, _  0 


o  bien 


AYt  —  fAXf  +  s, 


(12.9.7) 


donde  A  es  el  operador  de  primeras  diferencias  introducido  en  (12.1.10). 

Como  el  termino  de  error  en  (12.9.7)  esta  libre  de  la  correlacion  serial  (de  primer  orden)  (6por 
que?),  todo  lo  que  hay  que  hacer  para  llevar  a  cabo  la  regresion  ( 12.9.7)  es  formar  las  primeras 
diferencias  de  la  regresada  y  la(s)  regresora(s),  y  realizar  la  regresion  sobre  esas  primeras  dife¬ 
rencias. 

La  transformacion  de  primeras  diferencias  puede  resultar  adecuada  si  el  coeficiente  de  auto¬ 
correlacion  es  muy  alto,  por  ejemplo,  superior  a  0.8;  o  si  el  d  de  Durbin- Watson  es  muy  bajo. 
Maddala  propuso  esta  rudimentaria  regia  practica:  utilice  la  forma  de  primeras  diferencias  siem- 
pre  que  d  <  R2?6  Esto  es  lo  que  sucede  en  la  regresion  de  los  salarios  sobre  la  productividad 
(12.5.1),  en  donde  se  tiene  que  d  —  0.2176  y  r2  —  0.9845.  En  breve  presentaremos  la  regresion 
de  primeras  diferencias  para  el  ejemplo  ilustrativo. 

Una  caracteristica  importante  del  modelo  de  primeras  diferencias  (12.9.7)  es  que  carece  de 
intercepto.  Por  tanto,  para  estimar  (12.9.7)  se  tiene  que  emplear  la  rutina  de  la  regresion  a  tra- 
ves  del  origen  (es  decir,  suprimir  el  termino  del  intercepto),  la  cual  ahora  esta  disponible  en  la 
mayoria  de  los  software.  Sin  embargo,  si  olvida  eliminar  el  termino  del  intercepto  en  el  modelo 
y  estima  el  siguiente  modelo  que  incluye  dicho  termino 


A  Yt  —  f  +  faAX,  +  et 


(12.9.8) 


35  La  perdida  de  una  observacion  quiza  no  sea  algo  preocupante  en  muestras  grandes,  pero  puede  significar 
una  diferencia  fundamental  en  los  resultados  de  muestras  pequenas.  Si  no  se  transforma  la  primera  obser¬ 
vacion  como  se  indica,  la  varianza  de  error  no  sera  homoscedastica.  Para  saber  mas  sobre  lo  anterior,  vease 
Jeffrey  Wooldridge,  op.  cit.,  p.  388.  Para  conocer  algunos  resultados  Monte  Carlo  sobre  la  importancia  de  la 
primera  observacion,  vease  Russell  Davidson  y  James  G.  MacKinnon,  Estimation  and  Inference  in  Econometrics, 
Oxford  University  Press,  Nueva  York,  1993,  tabla  10.1,  p.  349. 

36  Maddala,  op.  cit.,  p.  232. 
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entonces  el  modelo  original  debe  tener  una  tendencia  y  /Si  representa  el  coeficiente  de  la  variable 
de  tendencia.37  En  consecuencia,  un  beneficio  “accidental”  de  introducir  el  termino  del  intercepto 
en  el  modelo  de  primeras  diferencias  es  probar  la  presencia  de  una  variable  de  tendencia  en  el 
modelo  original. 

En  cuanto  a  la  regresion  de  salarios  sobre  productividad  (12.5.2),  con  el  esquema  AR(1)  y  un 
valor  d  bajo  en  relacion  con  r2,  volvemos  a  hacer  la  regresion  (12.5.2)  en  la  forma  de  primeras 
diferencias,  sin  el  termino  de  intercepto;  recuerde  que  (12.5.2)  esta  en  forma  de  nivel.  Los  resul- 
tados  son  los  siguientes:38 


AY,  —  0.6539  AX, 

t  =  (11.4042)  r2  =  0.4264  d  =  1.7442 


(12.9.9) 


En  comparacion  con  la  regresion  de  forma  de  nivel  (12.5.2),  observamos  que  el  coeficiente 
de  pendiente  no  cambio  mucho,  pero  el  valor  r2  disminuyo  de  manera  considerable.  Esto  su- 
cede  porque  al  tomar  las  primeras  diferencias  se  estudia  en  esencia  el  comportamiento  de  varia¬ 
bles  alrededor  de  sus  valores  de  tendencia  (lineal).  Por  supuesto,  no  podemos  comparar  la  r2  en 
forma  directa  de  (12.9.9)  con  la  de  (12.5.2)  porque  las  variables  dependientes  en  los  dos  modelos 
son  distintas.39  Asimismo,  observe  que,  en  comparacion  con  la  regresion  original,  el  valor  d 
aumento  de  manera  drastica,  con  lo  que  quiza  se  senale  que  hay  muy  poca  autocorrelacion  en  la 
regresion  de  primeras  diferencias.40 

Otro  aspecto  interesante  de  la  transformacion  de  primeras  diferencias  se  relaciona  con  las 
propiedades  estacionarias  de  las  series  de  tiempo  subyacentes.  Considere  de  nuevo  la  ecuacion 
(12.2.1),  que  describe  el  esquema  AR(  1).  Ahora  bien,  si  de  hecho  p  —  1,  resultaclaro  de  las  ecua- 
ciones  (12.2.3)  y  (12.2.4)  que  la  serie  u,  es  no  estacionaria,  pues  las  varianzas  y  covarianzas  se 
vuelven  infinitas.  Es  por  esta  razon  que,  cuando  estudiamos  este  tema,  pusimos  la  restriccion  de 
que  \p\  <  1.  Pero  es  evidente,  a  partir  de  (12.2.1),  que  si  el  coeficiente  de  autocorrelacion  es 
de  hecho  1,  entonces  (12.2.1)  se  convierte  en 


u,  —  u,- 1  +  s, 


o 


(w,  —  m,_i)  =  Am,  =  st  (12.9.10) 

Es  decir,  es  u,  en  su  forma  de  primeras  diferencias  la  que  se  vuelve  estacionaria,  porque  es  igual 
a  £,,  un  termino  de  error  de  ruido  bianco. 

Lo  que  se  debe  destacar  del  analisis  anterior  es  que  si  las  series  de  tiempo  originales  son 
no  estacionarias,  a  menudo  sus  primeras  diferencias  se  convierten  en  estacionarias.  Por  consi- 
guiente,  la  transformacion  de  primeras  diferencias  tiene  un  doble  proposito:  puede  eliminar  la 
autocorrelacion  (de  primer  orden)  y  tambien  causar  que  una  serie  de  tiempo  sea  estacionaria.  En 
la  parte  5  analizaremos  ese  tema,  y  tambien  la  econometria  del  analisis  de  series  de  tiempo,  con 
cierto  detalle. 

Ya  mencionamos  que  la  transformacion  de  primeras  diferencias  resulta  adecuada  si  p  es  alta  o 
si  d  es  baja.  En  estricto  sentido,  la  trasformacion  de  primeras  diferencias  es  valida  solo  si  p  ~  1. 


37  Es  facil  demostrarlo.  Sea  Yt  =  oq  +  p,  t  +  f$2 Xt  +  ut.  Por  tanto,  Yt-i  =  a  +  (t  —  1 )  +  ftti  +  u,_i .  Al  res¬ 
tar  la  ultima  de  la  primera,  obtendra:  AYt  =  fi,  +  /^AX,  +  st,  lo  cual  muestra  que  el  termino  del  intercepto 
en  la  ecuacion  es  en  realidad  el  coeficiente  de  la  variable  de  tendencia  en  el  modelo  original.  Recuerde  que 
suponemos  que  p  =  1 . 

38  En  el  ejercicio  12.38  se  le  pide  hacer  la  regresion  de  este  modelo,  incluyendo  su  termino  constante. 

39  La  comparacion  de  r 2  en  la  forma  de  nivel  y  de  primeras  diferencias  es  un  poco  complicada.  Para  un  ana¬ 
lisis  amplio  de  lo  anterior,  vease  Maddala,  op.  cit.,  capftulo  6. 

40  No  resulta  claro  si  el  valor  d  calculado  en  la  regresion  de  primeras  diferencias  se  puede  interpretar  del 
mismo  modo  que  el  original  (la  regresion  en  su  forma  de  nivel).  Sin  embargo,  al  aplicar  la  prueba  de  las 
rachas,  se  observa  si  no  hay  evidencia  de  autocorrelacion  en  los  residuos  de  la  regresion  de  primeras 
diferencias. 
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De  hecho,  existe  una  prueba,  llamada  prueba  de  Berenblutt-Webb,41  para  probar  la  hipotesis  de 
que  p  —  1 .  El  estadlstico  de  prueba  se  llama  estadi'stico  g,  y  se  define  como  sigue: 


g  '■ 


ESS 


En  *7 
1  Ut 


(12.9.11) 


donde  ut  son  los  residuos  de  MCO  de  la  regresion  original  (es  decir,  en  su  forma  de  nivel)  y  s,  son 
los  residuos  de  MCO  de  la  regresion  de  primeras  diferencias.  Tenga  en  cuenta  que  en  la  forma  de 
primeras  diferencias  no  hay  intercepto. 

Para  probar  la  significancia  del  estadistico  g,  suponiendo  que  la  regresion  de  la  forma  de  nivel 
contiene  el  termino  de  intercepto,  se  utilizan  las  tablas  Durbin- Watson,  salvo  que  la  hipotesis 
nula  ahora  es  que  p  —  1  en  vez  de  la  hipotesis  de  Durbin- Watson  de  que  p—  0. 

Retome  la  regresion  de  los  salarios  sobre  la  productividad,  y  para  la  regresion  original  (12.5.2) 
obtenemos  uj  =  0.0214  y  ef  =  0.0046.  A1  sustituir  estos  valores  en  el  estadlstico  g  dado  en 
(12.9.11),  obtenemos 


0.0046 

0.0214 


0.2149 


(12.9.12) 


A1  consultar  la  tabla  de  Durbin- Watson  para  45  observaciones  (el  numero  mas  cercano  a  45  ob- 
servaciones)  y  1  variable  explicativa  (apendice  D,  tabla  D.5),  vemos  que  dL  —  1.288  y  dj—  1.376 
(en  el  nivel  de  significancia  de  5%).  Como  el  valor  g  observado  se  encuentra  por  debajo  del  11- 
mite  inferior  de  d ,  no  rechazamos  la  hipotesis  que  el  verdadero  p  —  1 .  Tenga  presente  que,  aun- 
que  se  utilizan  las  mismas  tablas  de  Durbin-  Watson,  ahora  la  hipotesis  nula  es  que  p  =  1  y  no  que 
p  =  0.  En  vista  de  este  hallazgo,  los  resultados  dados  en  (12.9.9)  pueden  ser  aceptables. 

p  basada  en  el  estadistico  d  de  Durbin-  Watson 

Si  no  podemos  utilizar  la  transformacion  de  primeras  diferencias  porque  p  no  esta  lo  bastante 
cerca  de  la  unidad,  hay  un  metodo  facil  para  estimarla  a  partir  de  la  relacion  establecida  con  an- 
terioridad  entre  d  y  p  en  ( 12.6.10),  de  la  cual  p  se  estima  de  la  siguiente  forma: 

P~\-d-  (12.9.13) 


Por  tanto,  en  muestras  razonablemente  grandes,  se  puede  obtener  p  de  (12.9.13)  y  emplearla  para 
transformar  los  datos,  como  vimos  en  la  ecuacion  en  diferencias  generalizadas  (12.9.5).  Tenga 
presente  que  la  relacion  entre  p  y  d dada  en  (12.9. 13)  quiza  no  sea  valida  para  muestras  pequenas; 
por  eso,  Theil  y  Nagar  propusieron  una  modificacion,  que  se  presenta  en  el  ejercicio  12.6. 

En  la  regresion  de  los  salarios  sobre  la  productividad  (12.5.2)  obtuvimos  un  valor  d  igual  a 
0.2176;  con  dicho  valor  en  (12.9.13)  obtuvimos  p  ~  0.8912.  Mediante  este  valor  estimado  de  p 
calculamos  la  regresion  (12.9.5).  Todo  lo  que  se  tiene  que  hacer  es  restar  la  cantidad  0.8912,  mul- 
tiplicada  por  el  valor  anterior  de  Y,  de  su  valor  actual,  y  de  manera  similar,  restar  0.89 12,  multipli- 
cada  por  el  valor  anterior  de  X,  de  su  valor  actual  y  realizar  la  regresion  MCO  sobre  las  variables 
as!  transformadas,  como  en  (12.9.6),  donde  Y*  —  (Y,  —  0.8912T,_i)  y  X*  —  (X,  —  0.891ZY,_!). 

p  estimada  a  partir  de  los  residuos 

Si  el  esquema  AR(  1 )  u,  —  pu,_  \  +  e,  es  valido,  una  manera  sencilla  de  estimar  p  es  hacer  la  regre¬ 
sion  de  los  residuos  u,  o  ut_ \  de  modo  que  las  u,  sean  estimadores  consistentes  de  las  verdaderas 
ut,  como  ya  vimos.  Es  decir,  hacemos  la  siguiente  regresion: 


u,  —  p  .  u,_i  +  v, 


(12.9.14) 


41  l.l.  Berenblutt  y  C.l.  Webb,  "A  New  Test  for  Autocorrelated  Errors  in  the  Linear  Regression  Model",  journal 
of  the  Royal  Statistical  Society,  Serie  B,  vol.  35,  num.  1 ,  1 973,  pp.  33-50. 
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donde  ut,  son  los  residuos  obtenidos  de  la  regresion  original  (en  su  forma  de  nivel)  y  v,  son  el 
termino  de  error  de  esta  regresion.  Observe  que  no  hay  necesidad  de  introducir  el  termino  de 
intercepto  en  (12.9.14),  porque  sabemos  que  los  residuos  de  MCO  suman  cero. 

Los  residuos  de  la  regresion  de  los  salarios  sobre  la  production  dados  en  (12.5.1)  ya  se  calcu- 
laron  en  la  tabla  12.5.  Con  esos  resultados  obtuvimos  lo  siguiente: 


u,  =  0.8678m;_i 

t  —  (12.7359)  r2  =  0.7863 


(12.9.15) 


Como  muestra  la  regresion,  p  —  0.8678.  Con  esta  estimacion  transformamos  el  modelo  original 
a  (12.9.6).  Como  la  p  estimada  mediante  este  procedimiento  es  casi  la  misma  que  la  obtenida  por 
el  d  de  Durbin- Watson,  los  resultados  de  la  regresion  al  utilizar  la  p  de  (12.9.15)  no  deben  ser 
muy  distintos  de  los  obtenidos  mediante  la  p  estimada  con  el  d  de  Durbin- Watson.  Dejamos  al 
lector  comprobar  lo  anterior. 


Metodos  iterativos  para  estimar  p 

Todos  los  metodos  para  estimar  p  que  hemos  visto  proporcionan  solo  una  estimacion  de  p.  Pero 
existen  los  llamados  metodos  iterativos  que  estiman  p  de  manera  iterativa,  es  decir,  mediante 
aproximaciones  sucesivas,  comenzando  con  algun  valor  inicial  de  p.  Entre  estos  metodos,  men- 
cionaremos  los  siguientes:  procedimiento  iterativo  de  Cochrane-Orcutt,  procedimiento  de 
dos  pasos  de  Cochrane-Orcutt,  procedimiento  de  dos  pasos  de  Durbin  y  procedimiento 
de  rastreo  o  de  busqueda  de  Hildreth-Lu.  El  mas  popular  es  el  metodo  iterativo  de  Cochrane- 
Orcutt.  Para  ahorrar  espacio,  analizaremos  los  metodos  iterativos  mediante  ejercicios.  Recuerde 
que  el  ultimo  objetivo  de  tales  metodos  es  proporcionar  una  estimacion  de  p  con  que  se  obtengan 
las  estimaciones  de  los  parametros  de  MCG.  Una  ventaja  del  metodo  iterativo  de  Cochrane-Or¬ 
cutt  es  que  sirve  para  estimar  no  solo  un  esquema  AR(1),  sino  tambien  esquemas  autorregresi- 
vos  de  orden  superior,  como  u ,  —  p\ut~\  +  piUt-2  +  v(,  que  son  AR(2).  Tras  obtener  dos  p,  se 
extiende  con  facilidad  la  ecuacion  en  diferencias  generalizada  (12.9.6).  Por  supuesto,  la  compu- 
tadora  puede  ahora  efectuar  lo  anterior. 

De  regreso  al  ejemplo  de  la  regresion  de  los  salarios  sobre  la  productividad  y  suponiendo  un 
esquema  AR(1),  utilizamos  el  metodo  iterativo  Cochrane-Orcutt,  el  cual  da  las  siguientes  esti¬ 
maciones  de  p:  0.8876,  0.9944  y  0.8827.  El  ultimo  valor,  0.8827,  ahora  sirve  para  transformar 
el  modelo  original  como  en  (12.9.6)  y  se  estima  mediante  MCO.  Por  supuesto,  los  MCO  en  el 
modelo  transformado  son  simplemente  los  MCG.  Los  resultados  son  los  siguientes: 

El  software  Stata  puede  estimar  los  coeficientes  del  modelo,  ademas  de  p.  Por  ejemplo,  si 
suponemos  AR(  1),  Stata  produce  los  siguientes  resultados: 

Y*  =  43.1042  +  0.5712X, 

ee=  (4.3722)  (0.0415)  (12.9.16) 

t=  (9.8586)  (13.7638)  r2  =  0.8146 

A  partir  de  estos  resultados,  observamos  que  la  rho  estimada  (p)  es  ~  0.8827,  lo  cual  no  difiere 
mucho  de  la  p  de  la  ecuacion  (12.9.15). 

Como  ya  senalamos,  en  la  ecuacion  en  diferencia  generalizada  (12.9.6)  se  pierde  una  obser¬ 
vation  porque  la  primera  no  tiene  antecedente.  Para  no  perder  la  primera  observation  se  usa  la 
transformation  de  Prais-Winsten.  Con  esta  transformation  y  STATA  (version  10)  obtenemos  los 
siguientes  resultados  de  la  regresion  de  salarios-productividad. 


Rcompb,  =  32.0434  +  0.6628  Prodb, 
ee  =  (3.7182)  (0.0386) 


r2  =  0.8799 


(12.9.17) 
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En  esta  transformacion,  el  valor  p  fue  0.9193,  que  se  obtuvo  despues  de  13  iteraciones.  Debe 
seiialarse  que  si  la primera  observacion  no  se  transforma  a  la  manera  de  Prais-Winsten  v  se  eli- 
mina,  los  resultados  son  a  veces  muy  diferentes,  en  especial  en  muestras  pequenas.  Observe  que 
el  valor  p  obtenido  aqul  no  difiere  mucho  del  que  se  obtuvo  con  la  ecuacion  (12.9.15). 

Comentarios  generates 

Hay  varios  puntos  que  se  deben  destacar  respecto  de  la  correccion  de  la  autocorrelacion  mediante 
los  diversos  metodos  analizados. 

En  primer  lugar,  como  para  muestras  grandes  los  estimadores  de  MCO  son  consistentes,  sin 
importar  la  autocorrelacion,  no  afecta  en  nada  si  se  estima  p  a  partir  del  estadistico  d  de  Durbin- 
Watson,  de  la  regresion  de  los  residuos  del  periodo  actual  sobre  los  residuos  del  periodo  anterior 
o  del  procedimiento  iterativo  Cochrane-Orcutt,  pues  todos  proporcionan  estimados  consistentes 
con  la  verdadera  p.  En  segundo  lugar,  los  distintos  metodos  analizados  son  basicamente  metodos 
de  dos  pasos.  En  el  primer  paso  se  obtiene  una  estimacion  de  la  p  desconocida,  y  en  el  segundo  se 
utiliza  dicha  estimacion  para  transformar  las  variables  a  fin  de  calcular  la  ecuacion  en  diferencias 
generalizada,  que  es  basicamente  MCG.  Pero  en  vista  de  que  se  utiliza  p  en  vez  de  la  verdadera  p, 
todos  estos  metodos  de  estimacion  se  conocen  en  la  bibliografia  como  metodos  MCG  factibles 
(MCGF)  o  MCG  estimados  (MCGE). 

En  tercer  lugar,  es  importante  observar  que  siempre  que  se  estimen  los  parametros  del  modelo 
transformado  con  un  metodo  MCGF  o  un  MCGE,  los  coeficientes  estimados  no  necesariamente 
tendran  las  propiedades  optimas  usuales  del  modelo  clasico,  como  ser  MEL1,  sobre  todo  en 
muestras  pequenas.  Sin  adentrarnos  en  complejidades  tecnicas,  podemos  enunciar,  como  princi- 
pio  general,  que  siempre  que  se  utilice  un  estimador  en  lugar  de  su  verdadero  valor,  los  coeficien¬ 
tes  de  MCO  estimados  quiza  presenten  las  propiedades  optimas  usuales  en  forma  asintotica;  es 
decir,  para  muestras  grandes.  Asimismo,  los  procedimientos  convencionales  para  pruebas  de 
hipotesis  son,  en  estricto  sentido,  validos  de  modo  asintotico.  En  consecuencia,  para  muestras 
pequenas,  se  debe  tener  cuidado  al  interpretar  los  resultados  estimados. 

En  cuarto  lugar,  al  utilizar  MCGF,  si  no  se  incluye  la  primera  observacion  (como  se  hizo  al 
principio  con  el  procedimiento  Cochrane-Orcutt),  se  pueden  ver  afectados  de  modo  adverso  no 
solo  los  valores  numericos,  sino  tambien  la  eficiencia  de  los  estimadores,  sobre  todo  si  el  tamano 
de  la  muestra  es  pequeno  y  las  regresoras  no  son,  estrictamente  hablando,  no  estocasticas.42 
Por  tanto,  en  pequenas  muestras  es  importante  conservar  la  primera  observacion  al  estilo  Prais- 
Winsten.  Desde  luego,  si  el  tamano  de  la  muestra  es  razonablemente  grande,  el  MCGF,  con  o  sin 
primera  observacion,  proporciona  resultados  similares.  A  proposito,  en  la  bibliografia,  el  MCGF 
con  transformacion  Prais-Winsten  se  conoce  como  MCGF  completo  o  MCGFC. 


12.10  El  metodo  Newey-West  para  corregir  los  errores 
estandar  de  MCO 


En  lugar  de  los  metodos  MCGF  analizados  en  la  seccion  anterior,  podemos  conservar  los  MCO 
pero  con  los  errores  estandar  corregidos  por  autocorrelacion,  mediante  un  procedimiento  des- 
arrollado  por  Newey  y  West.43  Se  trata  de  una  generalizacion  de  los  errores  estandar  consistentes 
con  heteroscedasticidad  de  White,  los  cuales  examinamos  en  el  capitulo  anterior.  Los  errores  es¬ 
tandar  corregidos  se  conocen  como  errores  estandar  CHA  (consistentes  con  heteroscedastici¬ 
dad  y  autocorrelacion),  o  simplemente  errores  Newey-West.  No  abordaremos  las  matematicas 


42  Esto  es  especialmente  cierto  si  las  regresoras  muestran  una  tendencia,  lo  cual  es  muy  comun  en  los  datos 
economicos. 

43  W.K.  Newey  y  K.  West,  "A  Simple  Positive  Semi-Definite  Heteroscedasticity  and  Autocorrelation  Consistent 
Covariance  Matrix",  Econometrica,  vol.  55,  1987,  pp.  703-708. 
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propias  del  procedimiento  Newey-West,  pues  son  complejas,44  pero  la  mayorla  de  los  programas 
estadlsticos  modernos  calcula  los  errores  estandar  Newey-West.  Sin  embargo,  resulta  importante 
destacar  que  el  procedimiento  Newey-West  es,  en  estricto  sentido,  vdlido  para  muestras  grandes, 
aunque  quiza  no  sea  adecuado  para  muestras  pequenas.  No  obstante,  para  muestras  grandes  ahora 
hay  un  metodo  que  origina  errores  estandar  corregidos  por  autocorrelacion,  asi  que  no  hay  que 
preocuparse  por  las  transformaciones  MCGF  analizadas  en  capitulos  anteriores.  Por  tanto,  si  una 
muestra  es  razonablemente  grande,  debe  utilizarse  el  procedimiento  Newey-West  para  corregir 
los  errores  estandar  de  MCO,  no  solo  para  situaciones  de  autocorrelacion,  sino  tambien  para 
casos  de  heteroscedasticidad,  pues  el  metodo  CHA  puede  abordar  ambos  casos,  a  diferencia  del 
metodo  White,  disenado  especificamente  para  la  heteroscedasticidad. 

Veamos  una  vez  mas  el  ejemplo  de  la  regresion  de  salarios  sobre  productividad  (12.5.1). 
Sabemos  que  esta  regresion  muestra  autocorrelacion.  La  muestra  de  46  observaciones  es  razona¬ 
blemente  grande,  por  lo  que  podemos  utilizar  el  procedimiento  CHA.  Con  EViews  4  obtenemos 
los  siguientes  resultados  de  la  regresion: 

Yt—  32.7419  +  0.6704X, 

ee=  (2.9162)*  (0.0302)*  (12.10.1) 

r2  —  0.9765  d  =  0.1719 


donde  *  denota  errores  estandar  CHA. 

A1  comparer  esta  regresion  con  (12.5.1)  encontramos  que  en  ambas  ecuaciones  los  coeficien- 
tes  estimados  y  el  valor  r2  son  iguales.  Pero  es  importante  observar  que  los  errores  estandar  CHA 
son  mucho  mayores  que  los  errores  estandar  de  MCO,  y  por  tanto  las  razones  t  CHA  son  mucho 
mas  pequenas  que  las  razones  t  de  MCO.  Lo  anterior  demuestra  que  en  realidad  MCO  subestimo 
los  errores  estandar  verdaderos.  Resulta  curioso  que  el  estadistico  d  para  los  modelos  (12.5.1)  y 
(12.10.1)  sea  el  mismo.  Pero  no  hay  de  que  preocuparse,  pues  el  procedimiento  CHA  ya  tomo 
esto  en  cuenta  al  corregir  los  errores  estandar  MCO. 


12.11  MCO  versus  MCGF  y  CHA 


El  problema  practico  que  enfrenta  el  investigador  es:  en  presencia  de  autocorrelacion,  los  esti- 
madores  de  MCO  — aunque  no  estan  sesgados,  son  consistentes  y  estan  distribuidos  de  manera 
normal  y  asintotica — ,  no  son  eficientes.  En  consecuencia,  ya  no  es  adecuado  el  procedimiento 
de  inferencia  usual  basado  en  las  pruebas  t,  F  y  y2.  Por  otra  parte,  los  procedimientos  MCGF  y 
CHA  producen  estimadores  eficientes,  pero  sus  propiedades  finitas,  o  para  muestras  pequenas,  no 
estan  bien  documentadas.  Esto  significa  que,  para  muestras  pequenas,  MCGF  y  CHA  en  realidad 
pueden  resultar  peores  que  los  MCO.  De  hecho,  en  un  estudio  Monte  Carlo,  Griliches  y  Rao45 
encontraron  que  si  la  muestra  es  relativamente  pequena  y  el  coeficiente  de  autocorrelacion  p  es 
menor  que  0.3,  MCO  es  igual  o  mejor  que  MCGF.  Asi,  como  cuestion  practica,  se  puede  utilizar 
MCO  para  muestras  pequenas  en  las  que  el  p  estimado  sea,  por  ejemplo,  menor  que  0.3.  Por 
supuesto,  siempre  es  relativo  afirmar  que  es  pequeiio  y  que  es  grande,  asi  que  aqui  entra  el  sen¬ 
tido  comiin.  Si  solo  hay  15  o  20  observaciones,  la  muestra  puede  ser  pequena,  pero  si  en  cambio 
existen  50  o  mas  observaciones,  la  muestra  puede  ser  razonablemente  grande. 


44  Si  el  lector  conoce  el  algebra  matricial,  el  metodo  se  analiza  en  la  obra  de  Greene,  op.  cit.,  4a.  ed.,  pp. 
462-463. 

45  Z.  Griliches  y  P.  Rao,  "Small  Simple  Properties  of  Several  Two-stage  Regression  Methods  in  the  Context  of 
Autocorrelated  Errors",  journal  of  the  American  Statistical  Association,  vol.  64,  1969,  pp.  253-272. 
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12.12  Otros  aspectos  de  la  autocorrelacion 

Variables  dicotomas  y  autocorrelacion 

En  el  capltulo  9  analizamos  los  modelos  de  regresion  con  una  variable  dicotoma.  En  particular, 
recuerde  el  modelo  de  regresion  del  ahorro  sobre  el  ingreso  estadounidenses  de  1970  a  1995,  que 
presentamos  en  (9.5.1),  y  que  reproducimos  a  continuation: 

Yt  —  a  i  +  otiDt  +  P\Xt  +  fa  (DtXt)  +  ut  (12.12.1) 

donde  Y  —  ahorro 
X  —  ingreso 

D  —  1  para  observaciones  de  1982  a  1995 
D  —  0  para  observaciones  de  1970  a  1981 

Los  resultados  de  la  regresion  basados  en  este  modelo  se  dan  en  (9.5.4).  Por  supuesto,  este  mo¬ 
delo  se  estimo  con  los  supuestos  usuales  para  MCO. 

Pero  ahora  suponga  que  u,  sigue  un  esquema  autorregresivo  de  primer  orden,  AR(1).  Es  decir, 
ut  —  put-i  +  e,.  Por  lo  comun,  si  se  conoce  p  o  se  calcula  mediante  uno  de  los  metodos  vistos 
antes,  podemos  utilizar  el  metodo  de  diferencias  generalizado  para  calcular  los  parametros  del 
modelo  que  no  presenta  autocorrelacion  (de  primer  orden).  No  obstante,  la  presencia  de  la  va¬ 
riable  dicotoma  D  plantea  un  problema:  observe  que  la  variable  dicotoma  simplemente  clasifica 
una  observacion  como  perteneciente  al  primero  o  al  segundo  periodo.  /.Como  la  transformamos? 
Seguimos  el  siguiente  procedimiento:46 

1.  En  (12.12.1),  los  valores  de  D  son  cero  para  todas  las  observaciones  del  primer  periodo; 
en  el  periodo  2,  el  valor  de  D  para  la  primera  observacion  es  1/(1  —  p)  en  vez  de  1,  y  es  1  para 
las  demas  observaciones. 

2.  La  variable  X,  se  transforma  como  ( X ,  —  pXt_\).  Observe  que  se  pierde  una  observacion 
en  esta  transformacion,  a  menos  que  se  recurra  a  la  transformacion  de  Prais-Winsten  para  la 
primera  observacion,  como  se  observo  antes. 

3.  El  valor  de  D,X,  es  cero  para  todas  las  observaciones  en  el  primer  periodo  {not a:  D ,  es 
cero  en  el  primer  periodo);  en  el  segundo  periodo,  la  primera  observacion  toma  el  valor  de 
DtXt  —X, y  las  observaciones  restantes  en  el  segundo  periodo  se  igualan  a  ( D, X,  —  DtpXt_\)  = 
( X ,  —  pX,_ i).  (Nota:  el  valor  de  D,  en  el  segundo  periodo  es  1.) 

Como  senala  el  analisis  anterior,  la  observacion  critica  es  la  primera  observacion  del  segundo 
periodo.  Si  se  tiene  cuidado  en  la  forma  que  aqui  se  acaba  de  indicar,  no  debe  haber  problema 
al  estimar  regresiones  como  (12.12.1),  sujetas  a  la  autocorrelacion  AR(1).  En  el  ejercicio  12.37 
se  pide  al  lector  llevar  a  cabo  esa  transformacion  para  los  datos  de  ahorro  e  ingreso  en  Estados 
Unidos  del  capitulo  9. 

Modelos  ARCH  y  GARCH 

Justo  como  el  termino  de  error  u  en  el  tiempo  t  puede  estar  correlacionado  con  el  termino  de 
error  en  el  tiempo  (t  —  1 )  en  un  esquema  AR(  1 ),  o  con  varios  terminos  de  error  rezagados  en  el 
esquema  general  AR(/>),  (',pucdc  existir  autocorrelacion  en  la  varianza  a2  en  el  tiempo  t,  respecto 
de  sus  valores  rezagados  uno  o  mas  periodos?  Los  investigadores  que  trabajan  en  el  pronostico  de 
series  de  tiempo  financieras,  como  precios  accionarios,  tasas  de  inflacion  y  tasas  de  cambio 
de  divisas,  han  observado  dicha  autocorrelacion.  A  tal  autocorrelacion  se  le  han  dado  nombres 
mas  bien  intimidantes,  como  heteroscedasticidad  condicional  autorregresiva  (ARCH),  si  la 
varianza  del  error  esta  relacionada  con  el  termino  del  error  al  cuadrado  en  el  periodo  anterior, 
y  heteroscedasticidad  condicional  autorregresiva  generalizada  (GARCH),  si  la  varianza  del 


46Vease  Maddala,  op.  at.,  pp.  321-322. 
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error  esta  relacionada  con  los  terminos  del  error  al  cuadrado  de  varios  periodos  en  el  pasado. 
Como  este  tema  pertenece  al  area  general  de  la  econometrla  de  las  series  de  tiempo,  lo  veremos 
con  mayor  profundidad  en  los  capltulos  correspondientes.  El  objetivo  aqul  es  senalar  que  la  au¬ 
tocorrelation  no  solo  abarca  las  relaciones  entre  los  terminos  del  error  actuales  y  anteriores,  sino 
tambien  las  varianzas  de  los  errores  actuales  y  anteriores. 

Coexistencia  de  la  autocorrelation  y  la  heteroscedasticidad 

(',Quc  pasa  si  un  modelo  de  regresion  presenta  heteroscedasticidad  y  autocorrelation?  ^Podemos 
resolver  este  problema  de  manera  secuencial,  es  decir,  abordar  primero  la  heteroscedasticidad 
y  luego  la  autocorrelation?  De  hecho,  un  autor  afirma  que:  “La  autocorrelation  solo  se  puede 
detectar  despues  de  controlar  la  heteroscedasticiad”.47  Pero,  ^podemos  desarrollar  una  prueba 
omnipotente  que  resuelva  de  manera  simultanea  esos  problemas  y  otros  mas  (por  ejemplo,  la  es- 
pecificacion  de  modelo)?  SI,  tales  pruebas  existen,  pero  su  estudio  trasciende  los  objetivos  de  este 
libro,  por  lo  que  lo  dejamos  para  consulta  en  las  references.48  Sin  embargo,  como  ya  senalamos, 
podemos  usar  los  errores  estandar  CHA,  pues  toman  en  cuenta  tanto  la  autocorrelacion  como  la 
heteroscedasticidad,  siempre  que  la  muestra  sea  razonablemente  grande. 


12.13  Ejemplo  para  concluir 


En  el  ejemplo  10.2  presentamos  datos  sobre  consumo,  ingreso,  riqueza  y  tasas  de  interes  en  Esta- 
dos  Unidos,  todos  en  terminos  reales.  Con  base  en  estos  datos  estimamos  la  siguiente  funcion  de 
consumo  para  Estados  Unidos  de  1947  a  2000,  con  la  regresion  del  logaritmo  de  consumo  sobre 
los  logaritmos  de  ingreso  y  de  riqueza.  No  expresamos  la  tasa  de  interes  en  forma  de  logaritmo 
porque  algunas  cifras  relativas  a  la  tasa  de  interes  real  eran  negativas. 

Variable  dependiente:  In (CONSUMO) 

Metodo:  Minimos  cuadrados 
Muestra:  1947-2000 
Observaciones  incluidas :  54 


Coef iciente 

Error  estandar 

Estadistico  t 

Probabilidad 

c 

-0.467711 

0 . 042778 

-10 . 93343 

0 .0000 

In (INGRESO) 

0 . 804873 

0 . 017498 

45 . 99836 

0 . 0000 

In (RIQUEZA) 

0.201270 

0 . 017593 

11.44060 

0 . 0000 

INTERES 

-0 . 002689 

0 . 000762 

-3 . 529265 

0 . 0009 

R  cuadrada 

0 .999560 

Media  de  la  variable  dependiente 

7 . 826093 

R  cuadrada 

ajustada 

0 .999533 

Desv.  est .  de  la  variable 

Error  estandar  de  la  regresion 

0 . 011934 

dependiente 

0.552368 

Suma  de  cuadrados  residual 

0 .007121 

Estadistico  F 

37832 . 59 

Log  verosimilitud 

164 .5880 

Probabilidad  (estadistico  F) 

0 . 000000 

Estadistico  de  Durbin-Watson 

1 .289219 

Como  era  de  esperar,  las  elasticidades  del  ingreso  y  la  riqueza  son  positivas,  y  la  semielasticidad 
de  la  tasa  de  interes,  negativa.  Aunque  al  parecer  los  coeficientes  estimados  son  muy  signifi- 
cativos  estadisticamente  en  lo  individual,  se  precisa  una  inspection  para  detectar  una  posible 
autocorrelacion  en  el  termino  de  error.  Como  sabemos,  en  presencia  de  autocorrelacion,  pueden 


47  Lois  W.  Sayrs,  Pooled  Time  Series  Analysis,  Sage,  California,  1 989,  p.  1 9. 

48Vease  Jeffrey  M.  Wooldridge,  op.  cit.,  pp.  402-403,  y  A.K.  Bera  y  C.M.  Jarque,  "Efficient  Tests  for  Norma- 
iita,  Homoscedasticity  and  Serial  Independence  of  Regression  Residuals:  Monte  Carlo  Evidence",  Economic 
Letters,  vol.  7,  1981,  pp.  313-318. 


Capftulo  1  2  Autocorrelation:  ique pasa  si  los  terminos  de  error  estdn  correlationados?  451 


subestimarse  los  errores  estandar  estimados.  A1  examinar  el  estadlstico  d  de  Durbin- Watson, 
parece  que  en  los  terminos  de  error  de  la  funcion  de  consumo  hay  autocorrelacion  (de  primer 
grado)  (verifiquelo). 

Para  confirmar  esto,  estimamos  la  funcion  de  consumo  teniendo  en  cuenta  la  autocorrelacion 
AR(1).  Los  resultados  son  los  siguientes: 

Variable  dependiente:  InCONSUMO 
Metodo :  Minimos  cuadrados 
Muestra  (ajustada):  1948-2000 

Observaciones  incluidas :  53  despues  de  los  ajustes 
Convergencia  lograda  despues  de  11  iteraciones 


Coef iciente 

Error  estandar  Estadlstico  t  Probabilidad 

c 

-0  . 

399833 

0 . 070954 

-5 . 635112 

0 . 0000 

InINGRESO 

0  . 

845854 

0 . 029275 

28 . 89313 

0 . 0000 

InRIQUEZA 

0  . 

159131 

0 . 027462 

5 . 794501 

0 . 0000 

INTERES 

0  . 

001214 

0 . 000925 

1.312986 

0 . 1954 

AR(1) 

0  . 

612443 

0 . 100591 

6 . 088462 

0 .0000 

R  cuadrada 

0 . 999688 

Media  de  la  variable  dependiente 

7 . 843871 

R  cuadrada 

ajustada 

0 . 999662 

Desviacion  estandar  de  la 

Error  estandar  de 

la  regresion 

0 . 009954 

variable  dependiente 

0 . 541833 

Suma  de  cuadrados 

residual 

0 . 004756 

Estadlstico  F 

38503 . 91 

Log  verosimilitud 

171 . 7381 

Probabilidad  (estadlstico  F) 

0 .000000 

Estadlstico  de  Durbin-Watson 

1 . 874724 

Estos  resultados  muestran  claramente  la  presencia  de  autocorrelacion  en  la  regresion.  Se  deja 
al  lector  la  tarea  de  eliminar  la  autocorrelacion  mediante  alguna  de  las  transformaciones  anali- 

zadas  en  este  capitulo.  Puede  usar 

la  p  estimada  de  0.6124  para  las  transformaciones.  A  con- 

tinuacion  presentamos  los  resultados  basados  en  errores  estandar  Newey-West  (CHA)  que 

toman  en  cuenta  la  autocorrelacion. 

Variable  dependiente:  InCONSUMO 
Metodo:  Minimos  cuadrados 

Muestra:  1947-2000 

Observaciones  incluidas:  54 

Errores  estandar 

Newey-West  CHA 

y  covarianza  ( truncamiento  de  rezago  =  3) 

Coef iciente 

Error  estandar  Estadlstico  t  Probabilidad 

C 

-0  . 

467714 

0 . 043937 

-10 . 64516 

0 . 0000 

INGRESO 

0  . 

804871 

0 . 017117 

47 . 02132 

0 . 0000 

RIQUEZA 

0  . 

201272 

0 . 015447 

13 . 02988 

0 . 0000 

INTERES 

0  . 

002689 

0 . 000880 

-3 . 056306 

0 . 0036 

R  cuadrada 

0 .999560 

Media  de  la  variable  dependiente 

7 . 826093 

R  cuadrada 

ajustada 

0 .999533 

Desviacion  estandar  de  la 

Error  estandar  de 

la  regresion 

0 . 011934 

variable  dependiente 

0 . 552368 

Suma  de  cuadrados 

residual 

0 . 007121 

Estadlstico  F 

37832 . 71 

Probabilidad  (estadlstico  F) 

0 .000000 

Estadlstico  de  Durbin-Watson 

1 .289237 

La  diferencia  principal  entre  la  primera  y  la  ultima  de  las  regresiones  anteriores  es  que  los  errores 
estandar  de  los  coeficientes  estimados  cambiaron  de  manera  considerable.  Pese  a  ello,  los  coefi- 
cientes  estimados  de  las  pendientes  son  aun  muy  significativos  estadisticamente.  Sin  embargo,  no 
hay  garantia  de  que  siempre  sera  asi. 
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Resumen  y 
conclusiones 


1.  Si  se  viola  el  supuesto  del  modelo  clasico  de  regresion  lineal  de  que  los  errores  o  las  pertur- 
baciones  nt  consideradas  dentro  de  la  funcion  de  regresion  poblacional  (FRP)  son  aleatorios 
o  no  correlacionados,  surge  el  problema  de  autocorrelacion  o  correlacion  serial. 

2.  La  autocorrelacion  surge  por  diversas  razones,  como  la  inercia  o  pasividad  de  las  series  de 
tiempo  economicas,  el  sesgo  de  especificacion  resultante  de  excluir  variables  importantes 
del  modelo  o  de  utilizar  la  forma  funcional  incorrecta,  el  fenomeno  de  la  telarana,  el  manejo 
y  transformacion  de  datos,  etc.  Como  resultado,  es  util  distinguir  entre  la  autocorrelacion 
pura  y  la  autocorrelacion  “inducida”,  debido  a  uno  o  mas  de  los  factores  que  acabamos  de 
mencionar. 

3.  Aunque  en  presencia  de  autocorrelacion  los  estimadores  de  MCO  se  mantienen  insesgados, 
consistentes  y  distribuidos  asintoticamente  en  forma  normal,  dejan  de  ser  eficientes.  Como 
resultado,  las  pruebas  y2,  t  y  F  usuales  no  son  aplicables  legitimamente.  Por  tanto,  se  necesita 
la  aplicacion  de  medidas  correctivas. 

4.  El  remedio  depende  de  la  naturaleza  de  la  interdependencia  entre  las  perturbaciones  ut.  Pero 
como  las  u,  no  son  observables,  la  practica  comun  es  suponer  que  algun  mecanismo  las  ge- 
nero. 

5.  El  mecanismo  mas  comun  es  el  esquema  autorregresivo  de  primer  orden  de  Markov,  que 
supone  que  la  perturbacion  en  el  tiempo  actual  esta  linealmente  relacionada  con  el  termino 
de  perturbacion  en  el  tiempo  anterior,  el  coeficiente  de  autocorrelacion  p  que  da  el  grado  de 
interdependencia.  Este  mecanismo  se  conoce  como  esquema  AR(1). 

6.  Si  el  esquema  AR(1)  es  valido  y  se  conoce  el  coeficiente  de  autocorrelacion,  el  problema  de 
correlacion  serial  se  resuelve  facilmente  mediante  la  transformacion  de  los  datos  segun  el 
procedimiento  de  diferencias  generalizado.  El  esquema  AR(1)  se  generaliza  sin  dificultad  a 
un  esquema  AR(p).  Tambien  se  puede  suponer  un  mecanismo  de  promedios  moviles  (PM)  o 
una  mezcla  de  los  esquemas  AR  y  PM,  conocido  como  ARMA.  Estudiaremos  este  tema  en 
los  capitulos  sobre  econometria  de  series  de  tiempo. 

7.  Aunque  utilicemos  un  esquema  AR(1),  el  coeficiente  de  autocorrelacion  p  no  se  conoce  a 
priori.  Consideramos  diversos  metodos  para  estimar  p,  como  el  d  de  Durbin- Watson,  el  d 
modificado  de  Theil-Nagar,  el  procedimiento  de  dos  etapas  de  Cochrane-Orcutt  (C-O),  el 
procedimiento  iterativo  C-0  y  el  metodo  de  dos  etapas  de  Durbin.  En  muestras  grandes, 
estos  metodos  suelen  producir  estimaciones  similares  de  p,  aunque  en  muestras  pequenas 
tienen  un  desempeno  diferente.  En  la  practica,  el  metodo  iterativo  C-0  ha  cobrado  gran  po- 
pularidad. 

8.  Con  cualquiera  de  los  metodos  que  acabamos  de  estudiar,  podemos  utilizar  el  metodo  de 
diferencias  generalizado  para  calcular  los  parametros  del  modelo  transformado  mediante 
MCO,  que  en  esencia  es  lo  mismo  que  MCG.  Pero  en  vista  de  que  se  estima  p  {  —  p),  este 
metodo  de  estimacion  se  conoce  como  factible,  o  estimado,  y  se  abrevia  MCG,  MCGF  o 
MCGE. 

9.  A1  utilizar  MCGE,  se  debe  tener  cuidado  al  eliminar  la  primera  observacion,  pues  en  mues¬ 
tras  pequenas  la  inclusion  o  exclusion  de  la  primera  observacion  puede  influir  de  manera 
drastica  en  los  resultados.  Por  tanto,  para  muestras  pequenas,  es  aconsejable  transformar  la 
primera  observacion  de  acuerdo  con  el  procedimiento  Prais-Winsten.  Sin  embargo,  en  mues¬ 
tras  grandes  no  importa  si  se  incluye  o  excluye  la  primera  observacion. 

10.  Es  muy  importante  notar  que  el  metodo  de  MCGE  presenta  las  propiedades  estadisticas  op- 
timas  usuales  solo  en  muestras  grandes.  Para  muestras  pequenas,  el  metodo  de  MCO  puede 
resultar  realmente  mejor  que  el  MCGE,  sobre  todo  si  p  <  0.3. 

11.  En  lugar  de  utilizar  MCGE,  todavia  se  pueden  usar  MCO,  pero  corrigiendo  la  autocorrela¬ 
cion  de  los  errores  estandar  mediante  el  procedimiento  CFIA  de  Newey-West.  En  estricto 
sentido,  este  procedimiento  es  valido  para  muestras  grandes.  Una  ventaja  es  que  no  solo 
corrige  la  autocorrelacion,  sino  tambien  la  heteroscedasticidad,  en  su  caso. 
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EJERCICIOS 


12.  Por  supuesto,  antes  del  remedio  esta  la  deteccion  de  la  autocorrelacion.  Existen  metodos 
formales  e  informales  de  deteccion.  Entre  los  informales  esta  el  de  simplemente  graficar  los 
residuos  estandarizados  o  reales,  o  graficar  los  residuos  reales  respecto  de  los  residuos  ante- 
riores.  Entre  los  metodos  formales  se  encuentran  la  prueba  de  rachas,  la  prueba  d  de  Durbin- 
Watson,  la  de  normalidad  asintotica,  la  de  Berenblutt-Webb  y  la  de  Breusch-Godfrey  (BG). 
De  todas,  la  mas  popular  es  la  prueba  d  de  Durbin- Watson.  A  pesar  de  su  ilustre  pasado,  esta 
prueba  tiene  graves  limitaciones.  Es  mejor  la  prueba  BG,  pues  es  mas  general  debido  a  que 
permite  las  estructuras  de  error  AR  y  PM,  asi  como  la  presencia  de  la  regresada  rezagada 
como  variable  explicativa.  Pero  tenga  en  cuenta  que  es  una  prueba  para  muestras  grandes. 

13.  En  este  capitulo  tambien  analizamos  de  manera  muy  sucinta  la  deteccion  de  la  autocorrela¬ 
cion  en  presencia  de  variables  dicotomas. 


Preguntas 

12.1.  Establezca  si  las  siguientes  afirmaciones  son  verdaderas  o  falsas.  Justifique  su  respuesta 
brevemente. 

a)  Cuando  hay  presencia  de  autocorrelacion,  los  estimadores  de  MCO  son  sesgados  e 
ineficientes. 

b)  La  prueba  d  de  Durbin- Watson  supone  que  la  varianza  del  termino  de  error  u,  es 
homoscedastica. 

c)  La  transformacion  de  primeras  diferencias  para  eliminar  la  autocorrelacion  supone 
que  el  coeficiente  de  autocorrelacion  p  es  —  1. 

d)  Los  valores  R2  de  dos  modelos,  de  los  cuales  uno  corresponde  a  una  regresion  en 
forma  de  primeras  diferencias  y  el  otro  a  una  regresion  en  su  forma  de  nivel,  no  son 
directamente  comparables. 

e)  Un  d  de  Durbin- Watson  significativo  no  necesariamente  denota  autocorrelacion  de 
primer  orden. 

/)  En  presencia  de  autocorrelacion,  las  varianzas  calculadas  convencionalmente  y  los 
errores  estandar  de  los  valores  pronosticados  son  ineficientes. 

g )  La  exclusion  de  una  o  varias  variables  importantes  de  un  modelo  de  regresion  puede 
producir  un  valor  d  significativo. 

h)  En  el  esquema  AR(  1 ),  una  prueba  de  hipotesis  de  que  p  —  1  puede  hacerse  mediante 
el  estadistico  g  de  Berenblutt-Webb,  lo  mismo  que  con  el  estadistico  d  de  Durbin- 
Watson. 

i)  En  la  regresion  de  primeras  diferencias  de  Y  sobre  primeras  diferencias  de  X,  si  hay 
un  termino  constante  y  un  termino  de  tendencia  lineal,  significa  que  en  el  modelo 
original  hay  un  termino  de  tendencia  lineal  y  uno  de  tendencia  cuadratica. 

12.2.  Con  una  muestra  de  50  observaciones  y  4  variables  explicativas,  ^que  puede  decir  sobre 
autocorrelacion  si  a)  d  —  1.05,  b)  d  —  1.40,  c)  d  —  2.50  y  d)  d  —  3.97? 

12.3.  A1  estudiar  el  movimiento  en  la  participacion  de  la  produccion  de  los  trabajadores  en 
el  valor  agregado  (es  decir,  la  participacion  laboral),  Gujarati*  considero  los  siguientes 
modelos: 


Modelo  A:  Y,  —  /S0  +  Pit  +  ut 

Modelo  B:  Yt  —  «o  +  oqf  +  ait2  +  ut 


*  Damodar  Gujarati,  "Labor's  Share  in  Manufacturing  Industries",  Industrial  and  Labor  Relations  Review, 
vol.  23,  num.  1,  octubre  de  1969,  pp.  65-75. 
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donde  Y  —  participation  laboral  y  t  =  tiempo.  Con  base  en  information  anual  de  1949  a 
1964  se  obtuvieron  los  siguientes  resultados  para  la  industria  metalurgica  basica: 


Modelo  A:  Y,  =  0.4529  -  0.00411 

(-3.9608) 


i?2  =  0.5284  <7=  0.8252 


Modelo  B:  Y,  =  0.4786  -  0.0127/ +  0.0005/2 

(-3.2724)  (2.7777) 

R2  =  0.6629 


d  =  1.82 


donde  las  cifras  entre  parentesis  son  las  razones  /. 

a)  /.Hay  correlacion  serial  en  el  modelo  A?  ^En  el  modelo  B? 

b)  iQue  explica  la  correlacion  serial? 

c)  /,C6mo  distinguiria  entre  autocorrelation  “pura”  y  sesgo  de  especificacion? 

12.4.  Detection  de  la  autocorrelation:  prueba  de  la  razon  de  von  Neumann*  Suponiendo  que 
los  residuos  u,  se  obtienen  aleatoriamente  de  una  distribution  normal,  von  Neumann 
demostro  que  para  n  grande,  la  razon 


S2  _  ~  Ui-i)2/(n  -  1) 

c2  — 


ZXw/  ~  u)2 In 


Nota:  u  =  0  en  MCO 


llamada  razon  de  von  Neumann,  tiene  una  distribution  aproximadamente  normal  con 
media 


<52 
E—  = 


2  n 

n  —  1 


y  varianza 


=  4  n2 


n  —  2 

(«  +  1)(«  -  l)3 


a)  Si  n  es  lo  bastante  grande,  ^como  utilizaria  la  razon  de  von  Neumann  para  probar  la 
autocorrelation? 

b)  (',Cual  es  la  relation  entre  la  d  de  Durbin- Watson  y  la  razon  de  von  Neumann? 

c)  El  estadistico  d  se  encuentra  entre  0  y  4.  ^Cuales  son  los  limites  correspondientes  para 
la  razon  de  von  Neumann? 

d)  Como  la  razon  depende  del  supuesto  de  que  las  u  se  obtienen  aleatoriamente  de  una 
distribution  normal,  ^que  validez  tiene  este  supuesto  para  los  residuos  de  MCO? 

e )  Si  en  una  aplicacion  se  encontro  que  la  razon  era  2.88  con  100  observaciones;  evalue 
la  hipotesis  de  que  no  hay  correlacion  serial  en  los  datos. 

Nota:  B.I.  Hart  tabulo  los  valores  criticos  de  la  razon  de  von  Neumann  para  tama- 
nos  de  muestras  de  hasta  60  observaciones.  ' 

12.5.  En  una  sucesion  de  17  residuos,  1 1  positivos  y  6  negativos,  el  niimero  de  rachas  fue  de  3. 

/,Hay  aqui  evidencia  de  autocorrelation?  ^Cambiaria  el  resultado  si  hubiera  14  rachas? 


*  J.  von  Neumann,  "Distribution  of  the  Ratio  of  the  Mean  Square  Successive  Difference  to  the  Variance",  An¬ 
nals  of  Mathematical  Statistics,  vol.  12,  1941,  pp.  367-395. 

*  La  tabla  se  encuentra  en  Johnston,  op.  cit.,  3a.  ed.,  p.  559. 
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12.6.  Estimation  de  p  de  Theil-Nagar  basada  en  el  estadistico  d.  Theil  y  Nagar  propusieron 
que,  en  muestras  pequenas,  en  lugar  de  estimar  p  como  (1  —  d/2)  se  estimara  como 

„  «2(  1  —  d/2)  +  k2 


donde  n  —  numero  total  de  observaciones,  d  —  d  de  Durbin- Watson  y  k—  numero  de 
coeficientes  que  se  van  a  estimar  (incluso  el  intercepto). 

Muestre  que,  para  una  n  grande,  esta  estimacion  de  p  es  igual  a  la  obtenida  por  la 
formula  mas  simple  (1  —  d/2). 


12.7.  Estimation  de  p:  procedimiento  de  busqueda  o  exploration  de  Hildreth-Lu.* *  Como  en  el 
esquema  autorregresivo  de  primer  orden 


U,  —  pUf—i  +  £t 


se  espera  que  p  se  encuentre  entre  —1  y  +1,  Hildreth  y  Lu  proponen  una  “exploracion” 
o  procedimiento  sistematico  de  busqueda  para  localizarlo.  Recomiendan  seleccionar  p 
entre  —  1  y  +1  con  intervalos,  por  ejemplo,  de  0.1  de  unidad,  y  transformando  los  datos 
mediante  la  ecuacion  en  diferencias  generalizada  (12.6.5).  Asi,  se  puede  seleccionar  p  de 
—0.9,  —0.8, .  . . ,  0.8,  0.9.  Para  cada  p  seleccionada  se  efectua  la  ecuacion  en  diferencias 
generalizada  y  se  obtiene  la  SCR  asociada:  u2.  Hildreth  y  Lu  proponen  seleccionar  el 
valor  de  p  que  minimice  SCR  (por  tanto,  se  maximiza  R2).  Si  se  requiere  mayor  refina- 
cion,  se  sugieren  intervalos  unitarios  mas  pequenos,  es  decir,  de  0.01  de  unidad,  como 
—0.99,  —0.98, . . . ,  0.90,  0.91,  y  asi  sucesivamente. 

a)  ^Cuales  son  las  ventajas  del  procedimiento  Hildreth-Lu? 

b)  (',C6mo  se  sabe  que  el  valor  p  seleccionado  en  ultima  instancia  para  transformar  los 
datos  garantizara  en  realidad  una  J2  u2  minima? 

12.8.  Estimation  de  p:  el  procedimiento  iterativo  Cochrane-Orcutt  (C-O).  Como  ilustracion 
de  este  metodo,  considere  el  modelo  de  dos  variables: 


Yt  —  P  i  +  fcXt  +  u, 


(1) 


y  el  esquema  AR(1) 


Ut  —  put-\  +  St,  —  1  <  p  <  1 


(2) 


Cochrane  y  Orcutt  recomendaron  lo  siguiente  para  estimar  p. 

1.  Calcule  (1)  mediante  la  rutina  usual  de  MCO  y  obtenga  los  residuos  it,.  A  proposito, 
observe  que  puede  haber  mas  de  una  variable  X  en  el  modelo. 

2.  Con  los  residuos  calculados  en  el  paso  1,  haga  la  siguiente  regresion: 


(3) 


ut  —  put-\  +  v, 


que  es  la  contraparte  empirica  de  (2).^ 

3.  Con  p  obtenida  en  (3),  calcule  la  ecuacion  en  diferencias  generalizada  ( 12.9.6). 


*  G.  Hildreth  y  J.Y.  Lu,  "Demand  Relations  with  Autocorrelated  Disturbances",  Michigan  State  University, 
Agricultural  Experiment  Station,  Tech.  Bull.  276,  noviembre  de  1 960. 

*  D.  Cochrane  y  G.H.  Orcutt,  "Applications  of  Least-Square  Regressions  to  Relationships  Containing  Autoco¬ 
rrelated  Error  Terms",  journal  of  the  American  Statistical  Association,  vol.  44,  1 949,  pp.  32-61 . 

*  Observe  que  p  =  J2  utut- 1  /J/uj  (ipor  que?).  Aunque  sesgada,  p  es  un  estimador  consistente  de  la 
verdadera  p. 
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4.  Como  no  se  sabe  a  priori  si  la  p  obtenida  de  (3)  es  la  mejor  estimacion  de  p,  sustituya 
los  valores  de  $*  y  /i|,  del  paso  (3)  para  la  regresion  original  (1),  y  obtenga  los  nuevos 
residuos,  digamos,  u*  como 

u*  =  Y,  —  /§*  -  p*X,  (4) 

que  se  calculan  con  facilidad,  pues  se  conocen  Yh  X,,  /3*  y 

5.  Ahora  calcule  la  siguiente  regresion: 

«?  =  P*«J_1+w,  (5) 

que  es  similar  a  (3),  y  por  tanto  proporciona  el  estimado  de  p  de  la  segunda  ronda. 
Como  desconocemos  si  dicha  estimacion  de  p  es  la  mejor  estimacion  de  la  verdadera 
p,  calculamos  la  estimacion  de  la  tercera  ronda,  y  asi  sucesivamente.  Por  esta  razon  el 
procedimiento  C-0  se  llama  metodo  iterativo.  Pero,  <hasta  donde  continuamos  iterando? 
La  recomendacion  general  es  detener  las  iteraciones  cuando  las  estimaciones  sucesivas 
de  p  difieran  por  una  pequena  cantidad,  por  ejemplo,  menores  que  0.01  o  0.005.  En  el 
ejemplo  de  la  regresion  de  los  salarios  sobre  la  productividad  se  requirieron  alrededor  de 
tres  iteraciones  antes  de  detenerse. 

a)  Con  el  procedimiento  iterativo  de  Cochrane-Orcutt  estime  p  en  la  regresion  de  los 
salarios  sobre  la  productividad,  ecuacion  (12.5.2).  ^Cuantas  iteraciones  se  requirieron 
para  obtener  la  estimacion  “final”  de  pi 

b )  Con  la  estimacion  final  de  p  obtenida  en  a),  estime  la  regresion  de  los  salarios  sobre 
la  productividad,  tanto  eliminando  la  primera  observacion  como  conservandola.  <',Quc 
diferencia  observa  en  los  resultados? 

c)  /.Cree  que  es  importante  conservar  la  primera  observacion  para  transformar  los  datos 
con  el  fin  de  resolver  el  problema  de  la  autocorrelation? 

12.9.  Estimacion  de  p:  procedimiento  de  dos  pasos  de  Cochrane-Orcutt.  Es  una  version  abre- 
viada  del  procedimiento  iterativo  C-O.  En  el  paso  1  se  estima  p  a  partir  de  la  primera 
iteration,  es  decir,  de  la  ecuacion  (3)  del  ejercicio  anterior,  y  en  el  paso  2  se  utiliza  la  es¬ 
timacion  de  p  para  efectuar  la  ecuacion  en  diferencias  generalizada,  como  en  la  ecuacion 
(4)  del  ejercicio  anterior.  A  veces  en  la  practica  este  metodo  de  dos  pasos  proporciona 
resultados  muy  similares  a  los  del  procedimiento  iterativo  C-O,  mas  elaborado. 

Aplique  el  metodo  de  dos  pasos  C-O  para  ilustrar  la  regresion  de  los  salarios  sobre 
la  productividad  (12.5.1)  de  este  capitulo  y  compare  los  resultados  con  los  obtenidos 
mediante  el  metodo  iterativo.  Ponga  especial  atencion  a  la  primera  observacion  en  la 
transformation. 

12.10.  Estimacion  de  p:  metodo  de  dos  pasos  de  Durbin*  Para  explicar  este  metodo,  expresa- 
mos  de  forma  equivalente  la  ecuacion  en  diferencia  generalizada  (12.9.5)  como: 

Yt  —  Pi(  1  —  p)  +  PiXt  —  PipX(—\  +  pYt- 1  +  et  (1) 

Durbin  propone  el  siguiente  procedimiento  de  dos  pasos  para  calcular  p.  Primero,  con- 
sidere  (1)  como  un  modelo  de  regresion  multiple,  haga  la  regresion  Y,  sobre  Xh  Xt_\  y 
Y,_ i,  y  considere  el  valor  estimado  del  coeficiente  de  la  regresion  de  Yt_\  (  ~  p)  como 
una  estimacion  de  p.  Segundo,  tras  obtener  p,  utilicelo  para  estimar  los  parametros  de  la 
ecuacion  en  diferencias  generalizada  ( 12.9.5)  o  su  equivalente  (12.9.6). 


*  J.  Durbin,  "Estimation  of  Parameters  in  Time  Series  Regression  Models",  lournal  of  the  Royal  Statistical  So¬ 
ciety,  serie  B,  vol.  22,  1960,  pp.  139-153. 
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a)  Aplique  el  metodo  de  dos  pasos  de  Durbin  al  ejemplo  de  la  regresion  de  los  salarios 
sobre  la  productividad,  analizado  antes  en  el  libro,  y  compare  los  resultados  con  los 
del  procedimiento  iterativo  Cochrane-Orcutt  y  los  del  metodo  de  dos  pasos  C-O.  Asi- 
mismo,  comente  respecto  de  la  “calidad”  de  sus  resultados. 

b )  Si  examina  la  ecuacion  (1)  inmediata  anterior,  observara  que  el  coeficiente  de  Xt~\ 
(—  —pfii)  es  igual  a  menos  1  por  el  producto  del  coeficiente  dc  X,(—  /C)  y  el  coefi¬ 
ciente  de  7,_i  (=  p).  /.Como  probarla  que  los  coeficientes  obedecen  la  restriccion 
anterior? 

12.11.  Al  medir  los  rendimientos  a  escala  en  la  oferta  de  electricidad,  Nerlove  utilizo  informa- 
cion  de  corte  transversal  de  145  empresas  de  servicios  de  propiedad  privada  en  Estados 
Unidos  durante  1955  y  efectuo  la  regresion  del  logaritmo  del  costo  total  sobre  los  lo- 
garitmos  de  la  produccion,  de  la  tasa  de  salarios,  del  precio  del  capital  y  del  precio  del 
combustible.  Encontro  que  los  residuos  estimados  a  partir  de  esta  regresion  presentaban 
correlacion  “serial”  a  juicio  del  d  de  Durbin- Watson.  Para  remediarlo,  grafico  los  resi¬ 
duos  estimados  respecto  del  logaritmo  de  la  produccion  y  obtuvo  la  figura  12.1 1. 

a)  /Que  indica  la  figura  12.11? 

b)  /Como  puede  eliminar  la  correlacion  “serial”  en  la  situacion  anterior? 

12.12.  Al  graficar  los  residuos  de  una  regresion  respecto  del  tiempo,  se  obtuvo  el  diagrama  de 
dispersion  de  la  figura  12.12.  El  residuo  “extremo”  encerrado  en  un  circulo  se  denomina 
valor  atipico.  Un  valor  atipico  es  una  observacion  cuyo  valor  excede  los  valores  de  las 


FIGURA  12.11 

Residuos  de  regresion 
del  estudio  de  Nerlove. 
(Adaptado  de  Marc 
Nerlove,  “Return  to  Scale 
in  Electric  Supply”,  en 
Carl  F.  Christ  et  al., 
Measurement  in  Econo¬ 
mics,  Stanford  University 
Press,  Stanford,  Califor¬ 
nia,  1963.) 


FIGURA  12.12 

Residuos  de  regresion 
hipoteticos  graficados  res¬ 
pecto  del  tiempo. 
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demas  observaciones  en  la  muestra  por  una  gran  cantidad,  tal  vez  tres  o  cuatro  desviacio- 
nes  estandar  alejada  del  valor  medio  de  todas  las  observaciones. 

a)  pGuales  son  las  razones  de  la  existencia  de  uno  o  varios  valores  atipicos? 

b )  Si  hay  uno  o  varios  valores  atipicos,  pdeben  descartarse  esas  observaciones  y  efectuar 
la  regresion  sobre  las  observaciones  restantes? 

c)  pEs  aplicable  el  d  de  Durbin- Watson  en  presencia  de  valores  atipicos? 

12.13.  Con  base  en  el  estadistico  d  de  Durbin- Watson,  ^como  distinguiria  la  autocorrelacion 
“pura”  del  sesgo  de  especificacion? 

12.14.  Suponga  que  en  el  modelo 

Yt  —  P  i  +  Pi  Xt  +  Ut 

las  u  son  en  realidad  serialmente  independientes.  (lQuc  sucederia  en  esta  situacion  si, 
suponiendo  que  ut  —  put_\  +  et,  utilizaramos  la  siguiente  regresion  en  diferencia  gene- 
ralizada? 

Y t  —  pY,_\  —  P\{\  —  p)  +  PiX,  —  pPiXt-i  +  et 
Analice  en  particular  las  propiedades  del  termino  de  perturbacion  e,. 

12.15.  En  un  estudio  de  determinacion  de  precios  de  la  produccion  final  a  costo  de  factor  en 
el  Reino  Unido  se  obtuvieron  los  siguientes  resultados  con  base  en  los  datos  anuales  de 
1951  a  1969: 

PFf=  2.033  +  0.273 W,  -  0.521A,+  0.256M,+  0.028M,_!  +  0.121^^„1 
ee  =  (0.992)  (0.127)  (0.099)  (0.024)  (0.039)  (0.119) 

R2  =  0.984  d  —  2.54 

donde  PF  =  precios  de  la  produccion  final  a  costo  de  factor,  W  —  salarios  por  empleado, 
X  —  producto  interno  bruto  por  persona  empleada,  M  —  precios  de  importacion,  M,_\  = 
precios  de  importacion  rezagados  1  ano  y  PF,_i  =  precios  de  la  produccion  final  a  costo 
de  factor  en  el  ano  anterior.* 

“Como  para  1 8  observaciones  y  5  variables  explicativas  a  5%  los  valores  d  inferior  y 
superior  son  0.71  y  2.06,  el  valor  d  estimado  de  2.54  indica  que  no  hay  autocorrelacion 
positiva”.  Comente. 

12.16.  Establezca  las  circunstancias  en  que  seria  adecuado  cada  uno  de  los  siguientes  metodos 
de  estimacion  del  coeficiente  de  autocorrelacion  de  primer  orden  p: 

a)  Regresion  de  primeras  diferencias 

b)  Regresion  de  promedios  moviles 

c)  Transformacion  Theil-Nagar 

d)  Procedimiento  iterativo  Cochrane  y  Orcutt 

e )  Procedimiento  de  exploracion  Flildreth-Lu 
/)  Procedimiento  en  dos  etapas  de  Durbin 

12.17.  Considere  el  modelo: 


Yt  —  Pi  +  PiXt  +  ut 


donde 


U,  —  P\U,-\  +  PiUt—2  +  st 


*  Fuente:  Prices  and  Earnings  in  1 951-1969:  An  Econometric  Assessment,  Department  of  Employment,  Her 
Majesty's  Stationery  Office,  1971,  tabla  C,  p.  37,  ecuacion  63. 
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es  decir,  el  termino  de  error  sigue  un  esquema  AR(2),  y  e,  es  un  termino  de  error  de  ruido 
bianco.  Describa  los  pasos  que  seguirla  para  estimar  el  modelo  si  tiene  en  cuenta  la  auto- 
rregresion  de  segundo  orden. 

12.18.  Con  el  factor  de  correccion  C,  la  formula  para  /d^CG  dada  en  (12.3.1)  es 

3mcg  _  (l  -  p2)x\y\  +  E”=2(x'  ~  Pxt-\)(yt  ~  pyt-\) 

2  (1  -  p2)x\  +  E"=2(x,  -  pjq-i)2 

Con  esta  formula  y  (12.3.1),  encuentre  la  expresion  para  el  factor  de  correccion  C. 

12.19.  Muestre  que  la  estimacion  de  (12.9.5)  equivale  a  estimar  los  MCG  analizados  en  la  sec- 
cion  12.3,  excluyendo  la  primera  observacion  en  Yy  enX. 

12.20.  Para  la  regresion  (12.9.9),  los  residuos  estimados  tuvieron  los  siguientes  signos: 

(++++)(-)(+++++++)(-)(++++)(— )(+)(—)(+)(— )(++)(-) 

(+)( - )(+) 

Con  base  en  la  prueba  de  rachas,  ^rechaza  la  hipotesis  nula  de  que  no  hay  autocorrelation 
en  estos  residuos? 

*12.21.  Prueba  para  correlacion  serial  de  orden  superior.  Suponga  que  tenemos  informacion  de 
series  de  tiempo  sobre  una  base  trimestral.  En  los  modelos  de  regresion  que  consideran 
informacion  trimestral,  en  lugar  de  utilizar  el  esquema  AR(1)  dado  en  (12.2.1),  puede  ser 
mas  apropiado  suponer  un  esquema  AR(4)  como  el  siguiente: 

Uf  —  p4llf—4  -}-  St 

es  decir,  suponer  que  el  termino  de  perturbation  actual  esta  correlacionado  con  el  termino 
para  el  mismo  trimestre  del  ano  anterior,  en  lugar  de  estarlo  con  el  del  trimestre  anterior. 

Para  probar  la  hipotesis  de  que  p4  —  0,  WallisT  sugiere  la  siguiente  prueba  d  modifi- 
cada  de  Durbin- Watson: 

,  _  E"=5 («'  -  4)2 


El  procedimiento  de  prueba  sigue  la  rutina  de  la  prueba  d  usual  analizada  en  el  texto. 
Wallis  prepare  las  tablas  <?4,  las  cuales  se  encuentran  en  su  articulo  original. 

Suponga  ahora  que  hay  informacion  mensual.  Puede  generalizarse  la  prueba  Durbin- 
Watson  para  considerar  tal  informacion?  De  ser  asi,  escriba  la  formula  dn  adecuada. 
12.22.  Suponga  que  estima  la  siguiente  regresion: 

Alnproduccion,  —  +  yS2Aln  L,  +  /S3Aln  K,  +  u, 

donde  Y  es  la  produccion,  L  es  el  insumo  trabajo,  K  es  el  insumo  capital  y  A  es  el  ope- 
rador  de  primeras  diferencias.  (',C6mo  interpretaria  f}\  en  este  modelo?  Puede  verse 
como  una  estimacion  del  cambio  tecnologico?  Justifique  su  respuesta. 


*  Opcional. 

t  Kenneth  Wallis,  "Testing  for  Fourth  Order  Autocorrelation  in  Quarterly  Regression  Equations",  Econome- 
trica,  vol.  40,  1 972,  pp.  61  7-636.  Las  tablas  de  d4  se  encuentran  tambien  en  J.  Johnston,  op.cit.,  3a.  ed., 
p.  558. 
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12.23.  Maddala  sugiere  que  si  el  d de  Durbin- Watson  es  menor  que  R1,  se  debe  efectuar  la  regre¬ 
sion  en  forma  de  primeras  diferencias.  (',Cual  es  el  razonamiento  de  esta  sugerencia? 

12.24.  Consulte  la  ecuacion  (12.4.1).  Suponga  r  —  0,  pero  p  /  0.  ^,Cual  es  el  efecto  sobre 
E(d2)  si  a)  0  <  p  <  1  y  b)  —  1  <  p  <  0?  (',Cuando  sera  razonablemente  pequeno  el  sesgo 
en  d2? 

12.25.  Se  hizo  la  regresion  de  los  residuos  de  la  regresion  de  los  salarios  sobre  la  productividad 
dados  en  (12.5.2),  sobre  los  residuos  rezagados  de  seis  periodos  anteriores  [es  decir, 
AR(6)],  con  los  siguientes  resultados: 


Variable  dependiente :  SI 
Metodo :  Minimos  cuadrados 
Muestra  (ajustada) :  1966-2005 

Observaciones  incluidas :  40  despues  de  los  ajustes 


Coef iciente 

Error  estandar 

Estadistico  t 

Probabilidad 

SI (-1) 

1 . 019716 

0 . 170999 

-5 . 963275 

0 .0000 

SI  (-2) 

-0 . 029679 

0.244152 

-0 . 121560 

0 .9040 

SI (-3) 

-0.286782 

0.241975 

-1 . 185171 

0.2442 

SI (-4) 

0 . 149212 

0.242076 

0 .616386 

0 . 5417 

SI (-5) 

-0 . 071371 

0.243386 

-0.293240 

0 . 7711 

SI (-6) 

0 . 034362 

0 . 167077 

0.205663 

0 . 8383 

R  cuadrada 

R  cuadrada 

ajustada 

0 . 749857 

0 . 713071 

Media  de  la  variable  dependiente 
Desviacion  estandar  de  la 

7 .004433 

Error  estandar  de  la  regresion 

0 . 010629 

variable  dependiente 

0 . 019843 

Suma  de  cuadrados  residual 

0 .003741 

Estadistico  de  Durbin-Watson 

1.956818 

a)  De  estos  resultados,  /,quc  puede  decir  sobre  la  naturaleza  de  la  autocorrelacion  en  los 
datos  sobre  salarios  y  productividad? 

b )  Si  piensa  que  un  mecanismo  AR(1)  caracteriza  la  autocorrelacion  en  los  datos,  (',uti- 
lizaria  la  transformacion  de  primeras  diferencias  para  eliminar  la  autocorrelacion? 
Justifique  su  respuesta. 

Ejercicios  empfricos 

12.26.  Consulte  los  datos  sobre  la  industria  del  cobre  de  la  tabla  12.7. 

a)  Con  base  en  esta  informacion,  estime  el  siguiente  modelo  de  regresion: 

In  Ct  —  P i  +  @2  In  It  +  P3  In  L,  +  /I4  In  H,  +  In  A,  +  ut 
Interprete  los  resultados. 

b )  Obtenga  los  residuos  y  los  residuos  estandarizados  de  la  regresion  anterior  y  grafique- 
los.  (',Quc  opina  sobre  la  presencia  de  autocorrelacion  en  estos  residuos? 

c)  Estime  el  estadistico  d  de  Durbin- Watson  y  comente  sobre  la  naturaleza  de  la  autoco¬ 
rrelacion  presente  en  los  datos. 

d)  Efectue  la  prueba  de  rachas  y  vea  si  su  respuesta  difiere  de  la  respuesta  dada  en  c). 

e)  iComo  investigaria  si  un  proceso  AR(p)  describe  mejor  la  autocorrelacion  que  un 
proceso  AR(1)? 

Nota:  guarde  estos  datos  para  un  analisis  posterior  (ejercicio  12.28). 
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TAB  LA  12.7 

Determinantes  del  pre- 
cio  interno  del  cobre  en 
Estados  Unidos, 
1951-1980 


Ano 

C 

C 

/ 

L 

H 

A 

1951 

21.89 

330.2 

45.1 

220.4 

1  491.0 

19.00 

52 

22.29 

347.2 

50.9 

259.5 

1  504.0 

19.41 

53 

19.63 

366.1 

53.3 

256.3 

1  438.0 

20.93 

54 

22.85 

366.3 

53.6 

249.3 

1  551.0 

21.78 

55 

33.77 

399.3 

54.6 

352.3 

1  646.0 

23.68 

56 

39.18 

420.7 

61.1 

329.1 

1  349.0 

26.01 

57 

30.58 

442.0 

61.9 

219.6 

1  224.0 

27.52 

58 

26.30 

447.0 

57.9 

234.8 

1  382.0 

26.89 

59 

30.70 

483.0 

64.8 

237.4 

1  553.7 

26.85 

60 

32.10 

506.0 

66.2 

245.8 

1  296.1 

27.23 

61 

30.00 

523.3 

66.7 

229.2 

1  365.0 

25.46 

62 

30.80 

563.8 

72.2 

233.9 

1  492.5 

23.88 

63 

30.80 

594.7 

76.5 

234.2 

1  634.9 

22.62 

64 

32.60 

635.7 

81.7 

347.0 

1  561.0 

23.72 

65 

35.40 

688.1 

89.8 

468.1 

1  509.7 

24.50 

66 

36.60 

753.0 

97.8 

555.0 

1  195.8 

24.50 

67 

38.60 

796.3 

100.0 

418.0 

1  321.9 

24.98 

68 

42.20 

868.5 

106.3 

525.2 

1  545.4 

25.58 

69 

47.90 

935.5 

111.1 

620.7 

1  499.5 

27.18 

70 

58.20 

982.4 

107.8 

588.6 

1  469.0 

28.72 

71 

52.00 

1  063.4 

109.6 

444.4 

2  084.5 

29.00 

72 

51.20 

1  171.1 

119.7 

427.8 

2  378.5 

26.67 

73 

59.50 

1  306.6 

129.8 

727.1 

2  057.5 

25.33 

74 

77.30 

1  412.9 

129.3 

877.6 

1  352.5 

34.06 

75 

64.20 

1  528.8 

117.8 

556.6 

1  171.4 

39.79 

76 

69.60 

1  700.1 

129.8 

780.6 

1  547.6 

44.49 

77 

66.80 

1  887.2 

137.1 

750.7 

1  989.8 

51.23 

78 

66.50 

2  127.6 

145.2 

709.8 

2  023.3 

54.42 

79 

98.30 

2  628.8 

152.5 

935.7 

1  749.2 

61.01 

80 

101.40 

2  633.1 

147.1 

940.9 

1  298.5 

70.87 

Nota:  Gary  R.  Smith  recopilo  los  datos  de  fuentes  como  American  Metal  Market,  Metals  Week  y  publicaciones  del  Departamento  de 
Comercio  de  Estados  Unidos. 

C  =  promedio  de  doce  meses  del  precio  interno  del  cobre  en  Estados  Unidos  (centavos  por  libra). 

G  =  Producto  Nacional  Bruto  anual  (miles  de  millones). 

/  =  Indice  promedio  de  doce  meses  de  la  production  industrial. 

L  =  Precio  promedio  de  doce  meses  del  cobre  en  la  bolsa  de  metales  de  Londres  (libras  esterlinas). 

H  =  Numero  de  casas  construidas  por  ano  (miles  de  unidades). 

A  =  Precio  promedio  de  doce  meses  del  aluminio  (centavos  de  dolar  por  libra). 


12.27.  Se  proporcionan  los  datos  de  la  tabla  12.8. 

a)  Verifique  que  el  d  de  Durbin- Watson  es  igual  a  0.4148. 

b )  <',Hay  correlacion  serial  positiva  en  las  perturbaciones? 

c)  De  ser  asi,  estime  p  mediante  el 

i)  Metodo  de  Theil-Nagar. 

ii )  Procedimiento  de  dos  pasos  de  Durbin. 
in)  Metodo  de  Cochrane-Orcutt. 

d)  Con  el  metodo  de  Theil-Nagar  transforme  los  datos  y  efectue  la  regresion  con  los 
datos  transformados. 

e)  ^La  regresion  estimada  en  d)  presenta  autocorrelacion?  De  ser  asi,  (',c6mo  se  desharia 
de  ella? 
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TAB  LA  12.8 


Y,  gasto  de  consumo  personal, 
miles  de  millones  de  dolares 


de 1958 

X,  tiempo 

Y,  Y  estimado 

u,  residuos 

281.4 

1  (=  1956) 

261.4208 

19.9791 

288.1 

2 

276.6026 

11.4973 

290.0 

3 

291.7844 

-1.7844 

307.3 

4 

306.9661 

0.3338 

316.1 

5 

322.1479 

-6.0479 

322.5 

6 

337.3297 

-14.8297 

338.4 

7 

352.5115 

-14.1115 

353.3 

8 

367.6933 

-14.3933 

373.7 

9 

382.8751 

-9.1751 

397.7 

10 

398.0569 

-0.3569 

418.1 

11 

413.2386 

4.8613 

430.1 

12 

428.4206 

1.6795 

452.7 

13 

443.6022 

9.0977 

469.1 

14 

458.7840 

10.3159 

476.9 

15  (=  1970) 

473.9658 

2.9341 

Nota:  Datos  de  Y  obtenidos  de  la  regresion  Yt  =  ft o  +  f$\Xt  +  ut. 


12.28.  Consulte  el  ejercicio  12.26  y  los  datos  de  la  tabla  12.7.  Si  los  resultados  de  este  ejercicio 
muestran  correlacion  serial, 

a)  Utilice  el  procedimiento  de  Cochrane-Orcutt  de  dos  etapas  y  obtenga  las  estimaciones 
de  MCG  factibles  o  la  regresion  en  diferencias  generalizada,  y  compare  sus  resulta¬ 
dos. 

b)  Si  el  p  estimado  del  metodo  de  Cochrane-Orcutt  en  a)  difiere  sustancialmente  del  es- 
timado  a  partir  del  estadistico  d,  (',quc  metodo  de  estimacion  de  p  seleccionaria  y  por 
que? 

12.29.  Consulte  el  ejemplo  7.4.  Efectue  la  regresion  omitiendo  las  variables  X2  y  X  \  y  examine 
los  residuos  en  busca  de  correlacion  “serial”.  Si  encuentra  correlacion  serial,  icomo  se 
explicaria  su  presencia?  pQue  medidas  correctivas  recomendaria? 

12.30.  Consulte  el  ejercicio  7.21.  Con  tal  informacion,  a  priori  se  espera  autocorrelacion.  Por 
consiguiente,  se  sugiere  que  efectue  la  regresion  del  logaritmo  de  la  oferta  monetaria 
real  sobre  los  logaritmos  del  ingreso  nacional  real  y  de  la  tasa  de  interes  de  largo  plazo 
en  la  forma  de  primeras  diferencias.  Efectue  esta  regresion  y  luego  hagala  de  nuevo  en 
la  forma  original.  pSe  satisface  el  supuesto  en  que  se  basa  la  transformation  de  primeras 
diferencias?  De  no  ser  asi,  ^que  clases  de  sesgos  es  probable  que  resulten  de  tal  transfor¬ 
macion?  Explique  su  respuesta  con  los  datos  disponibles. 

12.31.  Uso  del  d  de  Durbin-Watson  para  probar  la  no  linealidad.  Continue  con  el  ejercicio 
12.29.  Ordene  los  residuos  obtenidos  en  esa  regresion  de  acuerdo  con  valores  crecientes 
de  X.  Con  la  formula  dada  en  (12.6.5),  estime  d  a  partir  de  los  residuos  reordenados. 
Si  el  valor  d  calculado  indica  autocorrelacion,  esto  implicaria  que  el  modelo  lineal  era 
incorrecto  y  que  el  modelo  completo  debe  incluir  los  terminos  X2  y  X2.  pPuede  dar  una 
justification  intuitiva  para  tal  procedimiento?  Vea  si  la  respuesta  coincide  con  la  de  Henri 
Theil.* 

12.32.  Consulte  el  ejercicio  11.22.  Obtenga  los  residuos  y  vea  si  hay  autocorrelacion  en  ellos. 
pComo  transformaria  los  datos  en  caso  de  detectar  correlacion  serial?  (',Cual  es  el  signifi- 
cado  de  la  correlacion  serial  en  el  presente  ejemplo? 


Henri  Theil,  Introduction  to  Econometrics,  Prentice-Hall,  Englewood  Cliffs,  Nueva  Jersey,  1978,  pp.  307-308. 
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12.33.  Experimento  Monte  Carlo.  Consulte  las  tablas  12.1  y  1 2.2.  Con  los  datos  sobre  e,  y  X,  que 

alii  se  presentan,  genere  una  muestra  de  10  valores  Y  del  modelo 

Y,  =  3.0 +  0.5  X,  +  u, 

donde  u,  —  0.9 |  +  e,.  Suponga  que  m,  —  10. 

a)  Calcule  la  ecuacion.  Comente  sus  resultados. 

b )  Ahora  suponga  su  uq  —  17.  Repita  este  ejercicio  10  veces  y  comente  sus  resultados. 

c)  Mantenga  intactos  los  datos  anteriores,  excepto  que  ahora  permita  que  p  —  0.3  en 
lugar  de  p  —  0.9  y  compare  sus  resultados  con  los  obtenidos  en  b). 

12.34.  Con  los  datos  proporcionados  en  la  tabla  12.9,  estime  el  modelo 

Yt  —  Pi  +  PiXt  +  ut 

donde  Y  —  inventarios  y  X  —  ventas,  ambas  medidas  en  miles  de  millones  de  dolares. 

a)  Estime  la  regresion  anterior. 

b )  Con  los  residuos  estimados,  investigue  si  hay  autocorrelacion  positiva  mediante  i)  la 
prueba  de  Durbin- Watson  y  ii)  la  prueba  de  normalidad  para  grandes  muestras  dada 
en  (12.6.13). 

c)  Si  p  es  positivo,  aplique  la  prueba  de  Berenblutt-Webb  para  evaluar  la  hipotesis  de  que 
P=  1- 

d)  Si  sospecha  que  la  estructura  autorregresiva  del  error  es  de  orden  p,  verifiquelo  con  la 
prueba  de  Breusch-Godfrey.  pComo  seleccionaria  el  orden  de  pi 

e)  Con  base  en  los  resultados  de  esta  prueba,  <',c6mo  transformaria  los  datos  para  elimi- 
nar  la  autocorrelacion?  Muestre  todos  sus  calculos. 


TABLA  12.9  Inventarios  y  ventas  en  la  industria  manufacturera  de  Estados  Unidos,  1950-1991  (millones  de  dolares) 


Ano 

Ventas* 

Inventarios1' 

Razon 

Ano 

Ventas* 

Inventarios1' 

Razon 

1950 

46  486 

84  646 

1.82 

1971 

224  619 

369  374 

1.57 

1951 

50  229 

90  560 

1.80 

1972 

236  698 

391  212 

1.63 

1952 

53  501 

98  145 

1.83 

1973 

242  686 

405  073 

1.65 

1953 

52  805 

101  599 

1.92 

1974 

239  847 

390  950 

1.65 

1954 

55  906 

102  567 

1.83 

1975 

250  394 

382  510 

1.54 

1955 

63  027 

108 121 

1.72 

1976 

242  002 

378  762 

1.57 

1956 

72  931 

124  499 

1.71 

1977 

251  708 

379  706 

1.50 

1957 

84  790 

157  625 

1.86 

1978 

269  843 

399  970 

1.44 

1958 

86  589 

159  708 

1.84 

1979 

289  973 

424  843 

1.44 

1959 

98  797 

1  74  636 

1.77 

1980 

299  766 

430  518 

1.43 

1960 

113  201 

188  378 

1.66 

1981 

319  558 

443  622 

1.37 

1961 

126  905 

211  691 

1.67 

1982 

324  984 

449  083 

1.38 

1962 

143  936 

242 157 

1.68 

1983 

335  991 

463  563 

1.35 

1963 

154  391 

265  215 

1.72 

1984 

350  715 

481  633 

1.35 

1964 

168 129 

283  413 

1.69 

1985 

330  875 

428  108 

1.38 

1965 

163  351 

311  852 

1.95 

1986 

326  227 

423  082 

1.29 

1966 

172  547 

312  379 

1.78 

1987 

334  616 

408  226 

1.24 

1967 

190  682 

339  516 

1.73 

1988 

359  081 

439  821 

1.18 

1968 

194  538 

334  749 

1.73 

1989 

394  615 

479  106 

1.17 

1969 

194  657 

322  654 

1.68 

1990 

411  663 

509  902 

1.21 

1970 

206  326 

338  109 

1.59 

*  Los  datos  anuales  son  promedios  de  cifras  mensuales  sin  ajustar  por  estacionalidad. 

t  Las  cifras  de  fin  de  periodo,  ajustadas  por  estacionalidad,  comienzan  en  1982  y  no  son  comparables  con  periodos  anteriores. 
Fuente:  Economic  Report  of  the  President,  1993,  tabla  B-53,  p.  408. 
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f)  Repita  los  pasos  anteriores  con  el  siguiente  modelo: 

In  Yt  —  0 1  +  02  inX,  +  lit 

g)  ,',C6mo  decidirla  entre  la  especificacion  lineal  y  la  log-lineal?  Muestre  expllcitamente 
la(s)  prueba(s)  que  utiliza. 

12.35.  La  tabla  12. 10  proporciona  datos  sobre  la  tasa  real  de  rendimiento  para  acciones  comunes 
en  el  tiempo  i  (RR,),  el  crecimiento  de  la  produccion  en  el  periodo  (/  +  1)  (CP,+i)  y  la 
inflacion  en  el  periodo  t  (Inf,),  todos  dados  en  porcentaje,  en  la  economla  estadounidense 
de  1954  a  1981. 

a)  Haga  la  regresion  de  RR,  sobre  la  inflacion. 

b)  Haga  la  regresion  de  RR,  sobre  el  CP,+i  e  Inf,. 

c)  Comente  los  resultados  de  estas  dos  regresiones  a  la  luz  del  comentario  de  Eugene 
Fama,  respecto  de  que  “la  correlacion  simple  negativa  entre  los  rendimientos  reales  de 
las  acciones  y  la  inflacion  es  espuria  porque  es  el  resultado  de  dos  relaciones  estruc- 
turales:  una  relacion  positiva  entre  los  rendimientos  reales  actuales  de  las  acciones  y 
el  crecimiento  de  la  produccion  esperado  [medido  por  CP,+i],  y  una  relacion  negativa 
entre  el  crecimiento  de  la  produccion  esperado  y  la  inflacion  actual”. 

d)  /.Espcraria  autocorrelation  en  cualquiera  de  las  dos  regresiones  de  a)  y  b)l  ,',Por 
que?  Si  existiera,  tome  las  medidas  correctivas  apropiadas  y  presente  los  resultados 
revisados. 


TARI  A  1?  10 

Observacion 

RR 

Crecimiento 

Inflacion 

lasa  de  rendimiento. 

crecimiento  de  la 

1954 

53.0 

6.7 

-0.4 

produccion  e  inflacion, 

1955 

31.2 

2.1 

0.4 

Estados  Unidos, 

1956 

3.7 

1.8 

2.9 

1954-1981 

1957 

-13.8 

-0.4 

3.0 

1958 

41.7 

6.0 

1.7 

1959 

10.5 

2.1 

1.5 

1960 

-1.3 

2.6 

1.8 

1961 

26.1 

5.8 

0.8 

1962 

-10.5 

4.0 

1.8 

1963 

21.2 

5.3 

1.6 

1964 

15.5 

6.0 

1.0 

1965 

10.2 

6.0 

2.3 

1966 

-13.3 

2.7 

3.2 

1967 

21.3 

4.6 

2.7 

1968 

6.8 

2.8 

4.3 

1969 

-13.5 

-0.2 

5.0 

1970 

-0.4 

3.4 

4.4 

1971 

10.5 

5.7 

3.8 

1972 

15.4 

5.8 

3.6 

1973 

-22.6 

-0.6 

7.9 

1974 

-37.3 

-1.2 

10.8 

1975 

31.2 

5.4 

6.0 

1976 

19.1 

5.5 

4.7 

1977 

-13.1 

5.0 

5.9 

1978 

-1.3 

2.8 

7.9 

1979 

8.6 

-0.3 

9.8 

1980 

-22.2 

2.6 

10.2 

1981 

-12.2 

-1.9 

7.3 
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12.36.  Estadistico  h  de  Durbin.  Considere  el  siguiente  modelo  de  la  determinacion  de  salarios: 

Yt  =  ft  i  +  PiX,  +  /J3Fr_i  +  ut 

donde  Y  —  salarios  =  indice  de  remuneration  real  por  hora 
X  —  productividad  =  indice  de  production  por  hora 

a)  Con  los  datos  de  la  tabla  12.4,  calcule  el  modelo  anterior  e  interprete  sus  resultados. 

b )  Como  el  modelo  contiene  a  la  regresada  rezagada  como  variable  regresora,  el  d  de 
Durbin- Watson  no  resulta  apropiado  para  averiguar  si  existe  correlacion  serial  en  los 
datos.  Para  tales  modelos,  llamados  autorregresivos,  Durbin  desarrollo  el  estadistico 
h  para  probar  la  autocorrelacion  de  primer  orden,  el  cual  se  define  como:* 


donde  n  —  tamano  de  la  muestra,  var(/b)  =  varianza  del  coeficiente  de  la  Yt_\  reza¬ 


gada  y  p  —  la  estimacion  de  la  correlacion  serial  de  primer  orden. 

Para  un  tamano  de  muestra  grande  (tecnicamente  asintotica),  Durbin  mostro  que, 
segun  la  hipotesis  nula  de  que  p  —  0, 


h  ~  N{ 0,  1) 


es  decir,  el  estadistico  h  sigue  la  distribucion  normal  estandarizada.  A  partir  de  las 
propiedades  de  la  distribucion  normal,  sabemos  que  la  probabilidad  de  que  \h\  >  1.96 
es  de  casi  5%.  Por  consiguiente,  si  en  una  aplicacion  \h\  >  1.96,  podemos  rechazar  la 
hipotesis  nula  de  que  p  —  0;  es  decir,  existe  evidencia  de  autocorrelacion  de  primer 
orden  en  el  modelo  autorregresivo  dado  antes. 

Para  aplicar  la  prueba  procedemos  asi:  primero  estime  el  modelo  anterior  mediante 
MCO  (en  este  momento  no  hay  que  preocuparse  por  problemas  de  estimacion). 
Segundo,  observe  vari/C)  en  este  modelo,  asi  como  el  estadistico  d  que  se  calcula  de 
manera  rutinaria.  Tercero,  con  el  valor  d,  obtenga  p  (1  —  d/2).  Resulta  interesante 
notar  que,  a  pesar  de  que  no  se  puede  emplear  el  valor  d  para  probar  la  correlacion 
serial  en  este  modelo,  si  se  puede  usar  para  obtener  una  estimacion  de  p.  Cuarto, 
ahora  calcule  el  estadistico  h.  Quinto,  si  el  tamano  de  la  muestra  es  razonablemente 
grande  y  la  \h\  calculada  excede  1.96,  podemos  concluir  que  hay  evidencia  de  auto¬ 
correlacion  de  primer  orden.  Por  supuesto,  puede  usar  cualquier  nivel  de  significancia 
que  desee. 

Aplique  la  prueba  h  al  modelo  autorregresivo  de  determinacion  del  salario  dado 
antes  y  deduzca  las  conclusiones  apropiadas.  Tambien  compare  los  resultados  con  los 
obtenidos  mediante  la  regresion  (12.5.1). 


12.37.  Variables  dicotomasy  autocorrelacion.  Consulte  la  regresion  de  los  ahorros  sobre  el  in- 
greso  analizada  en  el  capitulo  9.  Con  los  datos  de  la  tabla  9.2  y  suponiendo  un  esquema 
AR(1),  vuelva  a  realizar  la  regresion  de  los  ahorros  sobre  el  ingreso,  tomando  en  cuenta 
la  autocorrelacion.  Ponga  especial  atencion  a  la  transformation  de  la  variable  dicotoma. 
Compare  sus  resultados  con  los  del  capitulo  9. 

12.38.  Con  los  datos  para  la  regresion  de  los  salarios  sobre  la  productividad  de  la  tabla  12.4,  es¬ 
time  el  modelo  (12.9.8)  y  compare  los  resultados  con  los  obtenidos  mediante  la  regresion 
(12.9.9).  ,',Que  conclusion(es)  deduce? 


*J.  Durbin,  "Testing  for  Serial  Correlation  in  Least-squares  Regression  When  Some  of  the  Regressors  Are 
Lagged  Dependent  Variables",  Econometrica,  vol.  38,  pp.  410-421 
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Apendice  1 2A 


12A.1  Prueba  de  que  el  termino  de  error  vt  en  la 
ecuacion  (12.1.11)  esta  autocorrelacionado 


Como  v,  =  u,  —  u,_ i,  resulta  facil  demostrar  que  E(v,)  =  E(u,  —  iq_ i)  =  E(ut)  —  E(u,_ i)  =  0,  pues 
E(u)  =  0,  para  cada  t.  Ahora  bien,  var(vf)  =  var(u,  —  ut-\)  =  var (u,)  +  var(zq_i)  =  2a2,  pues  la  varianza  de 
cada  u,  es  a2  y  las  u  estan  independientemente  distribuidas.  Por  tanto,  v,  es  homoscedastica.  Pero 

cov(v,,  vt_0  =  E(vtv f_i)  =  E[(u,  -  ut-t)(u,-i  -  «/- 2)] 

=  -o2 

lo  cual  es  obviamente  diferente  de  cero.  En  consecuencia,  aunque  las  u  no  estan  autocorrelacionadas,  las  v 
si  lo  estan. 


12A.2  Pruebas  de  las  ecuaciones  (12.2.3),  (12.2.4)  y 
(12.2.5) 


ConAR(l), 


u,  =  pu,-\  +  st 


Por  tanto, 


E{ut)  =  pE(ut- 1)  +  E(et)  =  0 


As!  que, 


var(n,)  =  p2  var(n,_i)  +  var(s,) 


porque  las  u  y  las  e  no  estan  correlacionados. 

Como  var(iq)  =  var(n,_i)  =  a2  y  var(s,)  =  a2,  tenemos 


var(n;) 


0) 

(2) 

(3) 

(4) 


Ahora  multiplicamos  (1)  por  y  tomamos  las  esperanzas  en  ambos  miembros  para  obtener: 

co v(ut,  ut- 1)  =  E(utut-\)  =  E  \pu2_x  +  n;_is,]  =  pE  {ut_\) 


Se  observa  que  la  covarianza  entre  iq_i  y  et  es  cero  (^por  que?),  y  ademas  que  var(iq)  =  var(iq_i)  = 
a2 /(l  —  p2),  y  obtenemos 


cov  (ut,  ut- 1)  =  p— — 

(1  -  P2) 


(5) 


Para  continuar  de  la  misma  forma, 


cov (ut,  u,-2)  =  p2 


(1  -P2) 


co v(m,,m,_3)  =  p\  e 

(1  -  p2) 

y  as!  sucesivamente.  Ahora  el  coeficiente  de  correlacion  es  la  razon  de  la  covarianza  respecto  de  la  varianza. 
Por  tanto, 

cor(n,,  ut-\)  =  p  cov (ut,  ut-i)  =  P2 


y  as!  sucesivamente. 


Capitulo 


Creacion  de  modelos 
econometricos : 
especificacion  del  modelo 
y  pruebas  de  diagnostico 

La  econometria  aplicada  no  puede  concebirse  de  manera  mecanica:  necesita  comprension,  intuicion 
y  habilidades.1 

. .  .  por  lo  general  atravesamos  puentes  sin  preocuparnos  por  la  solidez  de  su  construccion,  pues  tene- 
mos  la  certeza  razonable  de  que  alguien  verified  con  rigor  los  principios  y  practicas  de  la  ingenierla. 
Los  economistas  deben  hacer  esta  verificacion  con  los  modelos,  o  al  menos  anexar  la  siguiente  adver- 
tencia  a  su  modelo:  “no  nos  hacemos  responsables  si  al  emplearse  se  provoca  un  colapso”.2 

La  busqueda  de  la  “verdad”  por  parte  de  los  economistas  a  lo  largo  de  los  anos  ha  dado  origen  al 
punto  de  vista  segun  el  cual  los  economistas  son  personas  que  buscan  en  un  cuarto  oscuro  un  gato 
negro  que  no  existe;  a  los  econometristas  por  lo  general  se  les  acusa  de  haberlo  encontrado.3 

Un  supuesto  del  modelo  clasico  de  regresion  lineal  (MCRL),  el  9,  es  que  el  modelo  de  regresion 
del  analisis  esta  especificado  “correctamente”;  si  no  es  asi,  nos  enfrentamos  al  problema  de  error 
de  especificacion  del  modelo  o  sesgo  en  la  especificacion  del  modelo.  En  este  capitulo  revisa- 
remos  con  una  mirada  cuidadosa  y  critica  este  supuesto,  pues  la  busqueda  del  modelo  correcto  se 
asemeja  a  la  del  Santo  Grial.  En  particular,  examinaremos  las  siguientes  preguntas: 

1 .  qQue  hacer  para  encontrar  el  modelo  “correcto”?  En  otras  palabras,  ('.entiles  son  los  criterios 
para  elegir  un  modelo  a  partir  del  analisis  empirico? 

2.  (',Que  tipos  de  errores  de  especificacion  de  modelos  son  mas  comunes  en  la  practica? 

3.  ^Cuales  son  las  consecuencias  de  los  errores  de  especificacion? 

4.  (.Como  se  detectan  los  errores  de  especificacion?  En  otras  palabras,  ^cuales  son  algunas 
herramientas  de  diagnostico  disponibles? 

5.  Una  vez  detectados  los  errores  de  especificacion,  (.entiles  son  los  remedios  que  se  pueden 
adoptar  y  con  que  beneficios? 

6.  (.Como  se  evalua  el  desempeno  de  modelos  contendientes? 


1  Keith  Cuthberston,  Stephen  C.  Hall  y  Mark  P.  Taylor,  Applied  Econometrics  Techniques,  Michigan  University 
Press,  1 992,  p.  X. 

2  David  F.  Hendry,  Dynamic  Econometrics,  Oxford  University  Press,  Ingiaterra,  1 995,  p.  68. 

3  Peter  Kennedy,  A  Guide  to  Econometrics,  3a.  ed.,  The  MIT  Press,  Cambridge  Massachusetts,  1992,  p.  82. 
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El  tema  de  la  especificacion  y  evaluacion  de  modelos  es  amplio,  as!  que  se  requiere  una  tarea 
emplrica  muy  extensa  en  esta  area.  Y  no  solo  eso,  sino  que  tambien  existen  diferencias  filosoficas 
sobre  este  asunto.  Aunque  no  podemos  abarcar  por  completo  esta  materia  en  un  capltulo,  aclara- 
remos  algunos  temas  esenciales  de  la  especificacion  y  evaluacion  de  modelos. 


13.1  Criterios  de  seleccion  del  modelo 


De  acuerdo  con  Hendry  y  Richard,  la  eleccion  de  un  modelo  para  el  analisis  empirico  debe  satis- 
facer  los  siguientes  criterios:4 

1 .  Ser  adecuado  para  los  datos;  es  decir,  las  predicciones  basadas  en  el  modelo  deben  ser 
logicamente  posibles. 

2.  Ser  consistente  con  la  teoria;  es  decir,  debe  tener  un  sentido  economico  pertinente.  Por 
ejemplo,  si  es  valida  la  hipotesis  del  ingreso  permanente  de  Milton  Friedman,  se  espera  que 
el  valor  del  intercepto  en  la  regresion  del  consumo  permanente  sobre  el  ingreso  permanente  sea 
igual  a  cero. 

3.  Tener  regresoras  exogenas  debiles;  es  decir,  las  variables  explicativas,  o  regresoras,  no 
deben  estar  correlacionadas  con  el  termino  de  error.  Puede  anadirse  que,  en  algunas  situaciones, 
las  regresoras  exogenas  tal  vez  sean  estrictamente  exogenas.  Una  variable  estrictamente  exo- 
gena  es  independiente  de  los  valores  actuales,  futuros  y  pasados  del  termino  de  error. 

4.  Mostrar  constancia  en  los  parametros;  es  decir,  los  valores  de  los  parametros  deben  ser 
estables.  De  otra  forma  el  pronostico  se  dificultara.  Como  explica  Friedman:  “La  unica  prueba 
relevante  de  la  validez  de  un[a]  [modelo]  hipotesis  es  la  comparacion  de  sus  predicciones  con  la 
experiencia”.5  Ante  la  ausencia  de  la  constancia  en  los  parametros,  tales  predicciones  no  seran 
confiables. 

5.  Exhibit'  coherencia  en  los  datos;  es  decir,  los  residuos  estimados  a  partir  del  modelo  deben 
serpuramente  aleatorios  (tecnicamente,  ruido  bianco).  En  otras  palabras,  si  el  modelo  de  regresion 
es  adecuado,  los  residuos  obtenidos  de  este  modelo  deben  ser  de  ruido  bianco.  Si  no  es  el  caso, 
existe  un  error  de  especificacion  en  el  modelo.  En  breve  exploraremos  la  naturaleza  del  (los) 
error(es)  de  especificacion. 

6.  Ser  inclusivo;  es  decir,  el  modelo  debe  abarcar  o  incluir  todos  los  modelos  contendientes, 
en  el  sentido  de  que  debe  poder  explicar  sus  resultados.  En  resumen,  otros  modelos  no  pueden 
ser  mejores  que  el  elegido. 

Una  cosa  es  poner  en  una  lista  los  criterios  de  un  “buen”  modelo  y  otra  muy  distinta  des- 
arrollarlos  en  realidad,  pues  en  la  practica  es  muy  probable  que  se  cometan  diversos  errores  de 
especificacion  en  los  modelos,  que  analizaremos  en  la  siguiente  seccion. 


13.2  Tipos  de  errores  de  especificacion 


Suponga  que  con  base  en  los  criterios  recien  enumerados  llegamos  a  un  modelo  que  aceptamos 
como  bueno.  En  concrete,  este  modelo  es 

Yi  =  Pi  +  foXt  +  +  /f4X3  +  un  (1 3.2.1) 

donde  Y  —  costo  total  de  produccion  y  X  —  produccion.  La  ecuacion  (13.2.1)  es  un  ejemplo  de  la 
funcion  cubica  del  costo  total  frecuente  en  los  libros  de  texto. 


4  D.F.  Hendry  y  J.F.  Richard,  "The  Econometric  Analysis  of  Economic  Time  Series",  International  Statistical 
Review,  vol.  51,  1983,  pp.  3-33. 

5  Milton  Friedman,  "The  Methodology  of  Positive  Economics",  en  Essays  in  Positive  Economics,  University  of 
Chicago  Press,  Chicago,  1953,  p.  7. 
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Pero  suponga  que,  por  alguna  razon  (por  ejemplo,  por  pereza  de  graficar  el  diagrama  de  dis¬ 
persion),  un  investigador  decide  utilizar  el  siguiente  modelo: 

Yj  —  a  i  +  012X1  +  a$Xf  +  U2i  (13.2.2) 

Observe  que  cambiamos  la  notacion  para  distinguir  este  modelo  del  modelo  verdadero. 

Como  se  supone  que  (13.2.1)  es  verdadero,  la  adopcion  de  (13.2.2)  constituiria  un  error  de 
especificacion,  que  consiste  en  la  omision  de  una  variable  relevante  {X]).  Por  consiguiente,  el 
termino  de  error  U2,  en  (13.2.2)  es  de  hecho 

u2i  —  u\j  +  PaX^  (13.2.3) 

Pronto  veremos  la  importancia  de  esta  relacion. 

Ahora  suponga  que  otro  investigador  utiliza  el  siguiente  modelo: 

Yj  —  X  i  +  X2X1  +  A3  Xj  +  X4X ’?  +  X$X^  +  U3;  (1 3.2.4) 

Si  (13.2.1)  es  el  “verdadero”  (13.2.4),  tambien  constituye  un  error  de  especificacion  que  consiste 
en  incluir  una  variable  innecesaria  0  irrelevante  en  el  sentido  de  que  el  modelo  verdadero 
supone  que  X5  es  cero.  El  nuevo  termino  de  error  es  de  hecho 

«3,  =  M|,  -  X5Xf 

—  u\i  pues  A5  =  0  en  el  modelo  verdadero  (,',Por  que?) 

Suponga  ahora  que  otro  investigador  postula  el  siguiente  modelo: 

In  Yj  —  y\  +  yiXj  +  yiXj  +  yAXf  +  M4; 

En  relacion  con  el  modelo  verdadero  (13.2.6),  tambien  presenta  un  sesgo  de  especificacion,  en 
este  caso  originado  por  una  forma  funcional  incorrecta:  en  (13.2.1)  Y  aparece  linealmente, 
mientras  que  en  (13.2.6)  aparece  en  forma  log-lineal. 

Por  ultimo,  considere  que  un  investigador  utiliza  el  siguiente  modelo: 

Y*  =  0*  +  P*X*  +  p*Xf  +  P'*Xf  +  u*  (1 3.2.7) 

donde  Y*  =  Yj  +  e,-  y  X*  —  Xj  +  w„  con  e,-  y  w,-  como  errores  de  medicion.  Lo  que  plantea 
(13.2.7)  es  que,  en  lugar  de  los  verdaderos  Yj  y  Xh  se  utilizan  sus  valores  sustitutos,  Y*  y  X*,  los 
cuales  pueden  contener  errores  de  medicion.  Por  consiguiente,  en  (13.2.7)  hay  un  sesgo  por  erro¬ 
res  de  medicion.  En  el  trabajo  aplicado,  la  informacion  esta  plagada  de  errores  de  aproximacion, 
errores  de  cobertura  incompleta  o  tan  solo  errores  de  omision  de  algunas  observaciones.  En  las 
ciencias  sociales  a  menudo  se  depende  de  datos  secundarios  y  no  hay  forma  de  conocer  los  tipos 
de  errores,  si  existen,  cometidos  por  la  agenda  recolectora  de  datos  primarios. 

Otro  tipo  de  error  de  especificacion  se  relaciona  con  la  forma  como  el  error  estocastico  m,- 
(o  iif)  entra  en  el  modelo  de  regresion.  Considere  por  ejemplo  el  siguiente  modelo  de  regresion 
bivariado  sin  termino  de  intercepto: 


(13.2.5) 


(13.2.6) 


Yj  —  pXjUj  (13.2.8) 

donde  el  termino  de  error  estocastico  entra  de  forma  multiplicativa  y  tiene  la  propiedad  de  que  In 
m,  satisface  los  supuestos  del  MCRL,  en  comparacion  con  el  siguiente  modelo, 

Yj  —  aXj  +  Uj  (13.2.9) 

donde  el  termino  de  error  entra  en  forma  aditiva.  Aunque  las  variables  son  las  mismas  en 
ambos  modelos,  se  denoto  el  coeficiente  de  la  pendiente  en  ( 13.2.8)  con  ft,  y  el  coeficiente  de  la 
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pendiente  en  (13.2.9),  con  a.  Ahora,  si  (13.2.8)  es  el  modelo  “correcto”  o  “verdadero”,  /,1a  a 
estimada  proporciona  una  estimacion  insesgada  de  la  verdadera  /l?  Es  decir,  /,sera  E(a )  =  /S?  Si 
no  es  el  caso,  la  especificacion  estocastica  inadecuada  del  termino  de  error  constituira  otra  fuente 
de  errores  de  especificacion. 

Un  error  de  especificacion  que  a  veces  se  pasa  por  alto  es  la  interaccion  entre  las  regresoras, 
es  decir,  el  efecto  multiplicative  de  una  o  mas  regresoras  sobre  la  variable  regresada.  Para 
ilustrar,  considere  la  siguiente  funcion  simplificada  de  salarios: 


In  W/  —  +  p2  Escolaridad,  +  Sexo, 

+  ^4  (Escolaridad)  (Sexo)  +  u 


(13.2.10) 


En  este  modelo,  el  cambio  en  los  salarios  relativos  respecto  de  la  educacion  depende  no  solo  de  la 
escolaridad  sino  tambien  del  sexo  ( aF.scoiandad  —  P2  +  /^Sexo).  Asimismo,  el  cambio  en  los  sala¬ 
rios  relativos  respecto  del  sexo  depende  no  solo  del  sexo,  sino  tambien  del  nivel  de  escolaridad. 

Para  resumir,  al  formular  un  modelo  empirico,  es  probable  que  se  cometan  uno  o  mas  de  los 
siguientes  errores  de  especificacion: 

1 .  Omision  de  una  variable  relevante. 

2.  Inclusion  de  una  variable  innecesaria. 

3.  Adoption  de  la  forma  funcional  incorrecta. 

4.  Errores  de  medicion. 

5.  Especificacion  incorrecta  del  termino  de  error  estocastico. 

6.  Suposicion  de  que  el  termino  de  error  esta  normalmente  distribuido. 

Antes  de  examinar  con  detalle  esos  errores  de  especificacion,  vale  la  pena  distinguir  entre 
errores  de  especificacion  del  modelo  y  errores  de  especificacion  incorrecta  del  modelo.  Los 

primeros  cuatro  tipos  de  error  son  en  esencia  errores  de  especificacion  del  modelo,  pues  lo  que 
se  tiene  en  mente  es  un  modelo  “verdadero”,  sin  embargo,  no  estimamos  el  modelo  correcto.  En 
los  errores  de  especificacion  incorrecta  del  modelo,  para  empezar,  ni  siquiera  sabemos  cual  es  el 
verdadero  modelo.  En  este  contexto  viene  a  la  mente  la  controversia  entre  los  keynesianos  y  los 
monetaristas.  Estos  liltimos  dan  preferencia  al  dinero  cuando  explican  los  cambios  en  el  P1B,  en 
tanto  que  los  keynesianos  destacan  el  papel  del  gasto  gubernamental  para  justificar  las  variacio- 
nes  del  PIB.  Asi  que  podemos  decir  que  hay  dos  modelos  rivales. 

En  lo  que  resta  del  capitulo  veremos  primero  los  errores  de  especificacion  de  modelos  y  luego 
los  errores  de  la  mala  especificacion  de  modelos. 


13.3 


Consecuencias  de  los  errores  de  especificacion  del  modelo 


Independientemente  de  las  fuentes  de  los  errores  de  especificacion,  6cuales  son  las  consecuen¬ 
cias?  Para  no  complicar  este  analisis,  responderemos  en  el  contexto  del  modelo  con  tres  variables 
y  consideraremos  en  detalle  dos  tipos  de  errores  de  especificacion  ya  analizados,  a  saber:  1) 
subajuste  de  un  modelo,  es  decir,  la  omision  de  variables  relevantes,  y  2)  sobreajuste  de  un 
modelo,  es  decir,  la  inclusion  de  variables  innecesarias.  Por  supuesto,  los  resultados  se  pueden 
generalizar  al  caso  de  mas  de  dos  regresoras,  pero  mediante  manejo  algebraico  tedioso;6  una  vez 
que  se  tienen  casos  de  mas  de  tres  variables,  el  algebra  matricial  se  convierte  en  necesidad. 


6  Vease,  sin  embargo,  el  ejercicio  1  3.32. 
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Omision  de  una  variable  relevante 
(subajuste  de  un  modelo) 

Suponga  que  el  verdadero  modelo  es 

Yi  =  Pi  +  p2X2i  +  foX3i  +  Ui  (1 3.3.1) 

pero,  por  alguna  razon  ajustamos  el  siguiente  modelo: 

Y,  —  a  i  +  a2X2i  +  Vj  (1 3.3.2) 

Las  consecuencias  de  omitir  X3  son  las  siguientes: 

1 .  Si  la  variable  excluida,  u  omitida,  X3  esta  correlacionada  con  la  variable  incluida  X2,  es 
decir,  r2 3,  el  coeficiente  de  correlation  entre  las  dos  variables  es  diferente  de  cero,  U]  y  a2  son 
sesgados  e  inconsistentes.  Es  decir,  E(6t{)  no  es  igual  a  /Si  y  E(a2 )  no  es  igual  a  fi2,  y  el  sesgo  no 
desaparece  conforme  aumenta  el  tamano  de  la  muestra. 

2.  Aunque  X2  y  X3  no  esten  correlacionados,  a.\  es  sesgado,  pese  a  que  a2  sea  ahora  inses- 
gado. 

3.  La  varianza  de  la  perturbation  a2  esta  incorrectamente  estimada. 

4.  La  varianza  medida  convencionalmente  de  a2  ( =  <r2/ es  un  estimador  sesgado  de 
la  varianza  del  verdadero  estimador  f2. 

5.  En  consecuencia,  es  probable  que  el  intervalo  de  confianza  usual  y  los  procedimientos  de 
pruebas  de  hipotesis  conduzcan  a  conclusiones  equivocadas  sobre  la  significance  estadistica 
de  los  parametros  estimados. 

6.  Otra  consecuencia  es  que  los  pronosticos  basados  en  el  modelo  incorrecto  y  los  intervalos 
(de  confianza)  del  pronostico  no  son  confiables. 

Aunque  las  pruebas  de  cada  una  de  las  afirmaciones  anteriores  escapan  por  mucho  al  tema,7 
en  el  apendice  13  A,  section  13A.1,  se  demuestra  que 


E(u2)  =  p2  +  fob32  (13.3.3) 

donde  b22  es  la  pendiente  en  la  regresion  de  la  variable  excluida  X2  sobre  la  variable  incluida 
X2  (b2 2  =  J2x^'x2i/J2x2i)-  Como  se  ve  en  (13.3.3),  a2  esta  sesgada,  a  menos  que  /13  o  b22,  o 
ambas,  sean  cero.  Eliminamos  /S3  haciendola  cero  porque  en  ese  caso,  para  empezar,  ni  siquiera 
hay  error  de  especificacion.  El  coeficiente  b22  sera  cero  si  X2  y  X2  no  estan  correlacionadas,  lo 
cual  es  poco  probable  en  la  mayoria  de  los  datos  economicos. 

Sin  embargo,  por  lo  general,  la  amplitud  del  sesgo  depende  del  termino  del  sesgo,  /32b22.  Si, 
por  ejemplo,  fo  es  positiva  (es  decir,  X2  tiene  un  efecto  positivo  sobre  Y)  y  b22  es  positiva  (es 
decir,  X2  y  X2  estan  positivamente  correlacionadas),  a2,  en  promedio,  sobreestimara  a  la  verda- 
dera  /32  (es  decir,  al  sesgo  positivo).  Pero  este  resultado  no  debe  sorprender,  pues  X2  representa 
no  solamente  su  efecto  directo  sobre  Y  sino  tambien  su  efecto  indirecto  (a  traves  de  X2)  sobre 
Y.  En  resumen,  X2  obtiene  relevancia  por  la  influencia  que  debe  atribuirse  a  X2,  sin  permitir  que 
esta  ultima  muestre  su  efecto  explicitamente  porque  no  se  le  “permite”  ingresar  al  modelo.  Como 
ejemplo  concreto,  considere  el  que  analizamos  en  el  capitulo  7  (ejemplo  7.1). 


7  Para  un  tratamiento  algebraico,  vease  Jan  Kmenta,  Elements  of  Econometrics,  Macmillan,  Nueva  York,  1971, 
pp.  391  -399.  Quienes  conozcan  el  algebra  matricial  pueden  consultar  J.  Johnston,  Econometric  Methods,  4a. 
ed.,  McGraw-Hill,  Nueva  York,  1997,  pp.  119-122. 
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EJEMPLO  13.1 

Ejemplo  ilustrativo: 
De  nuevo  la  morta- 
lidad  infantil 


Al  hacer  la  regresion  de  la  mortalidad  infantil  (Ml)  sobre  el  PIB  per  capita  (PIBPC)  y  sobre  la  tasa 
de  alfabetizacion  de  las  mujeres  (TAM)  obtuvimos  los  resultados  de  la  ecuacion  (7.6.2),  con 
los  valores  parciales  de  los  coeficientes  de  pendiente  de  las  dos  variables  —0.0056  y  —2.2316, 
respectivamente.  Pero  si  ahora  eliminamos  la  variable  (TAM)  obtenemos  los  resultados  de  la 
ecuacion  (7.7.2).  Si  consideramos  que  (7.6.2)  es  el  modelo  correcto,  entonces  (7.7.2)  es  un  mo¬ 
delo  mal  especificado,  pues  omite  la  variable  relevante  TAM.  Ahora  podemos  observar  que,  en 
el  modelo  correcto,  el  coeficiente  de  la  variable  PIBPC  fue  —0.0056,  en  tanto  que  en  el  modelo 
"incorrecto"  (7.7.2)  es  ahora  de  —0.01 1 4. 

En  terminos  absolutos,  ahora  la  variable  PIBPC  tiene  un  mayor  impacto  sobre  la  Ml  en  com- 
paracion  con  el  verdadero  modelo.  Pero  si  hacemos  la  regresion  de  TAM  sobre  PIBPC  (la  regre¬ 
sion  de  la  variable  excluida  sobre  la  incluida),  el  coeficiente  de  pendiente  en  la  regresion  [£>32  en 
terminos  de  la  ecuacion  (1  3.3.3)]  es  0.00256. 8  Lo  anterior  indica  que  conforme  PIBPC  aumen- 
ta  una  unidad,  en  promedio,  TAM  se  incrementa  0.00256  unidades.  Pero  si  TAM  aumenta  esas 
unidades,  su  efecto  en  Ml  sera  (—2.231 6)(0. 00256)  =  ^3632  =  —0.00543. 

Por  tanto,  de  (1  3.3.3)  tenemos  al  final  (/1 2  +  ^3632)  =  [—0.0056  +  (—2.231 6)(0. 00256)]  « 
—0.01 1 1 ,  que  es  casi  el  valor  del  coeficiente  PIBPC,  obtenido  en  el  modelo  incorrecto  (7. 7. 2). 9 
Como  ilustra  este  ejemplo,  el  verdadero  efecto  del  PIBPC  sobre  la  Ml  es  mucho  menor  (—0.0056) 
de  lo  que  indica  el  modelo  incorrecto  (7.7.2),  a  saber,  (—0.0114). 


Examinemos  ahora  las  varianzas  de  0/2  y  [h 


var(a2)  = 


£*2 


var(/J2)  = 


£40  -  4)  £*: 


FIV 


(13.3.4) 

(13.3.5) 


donde  FIV  (una  medida  de  colinealidad)  es  el  factor  inflacionario  de  la  varianza  [  =  1/(1  —  4)] 
analizada  en  el  capltulo  10  y  r2  3  es  el  coeficiente  de  correlacion  entre  las  variables  V2  y  Xy  las 
ecuaciones  (13.3.4)  y  (13.3.5)  resultan  familiares  pues  las  vimos  en  los  capitulos  3  y  7. 

Como  las  formulas  (13.3.4)  y  (13.3.5)  no  son  iguales,  en  general  la  var(«2)  sera  diferente  de 
la  varf/T).  Pero  sabemos  que  var(/i2)  es  insesgada  (^por  que?).  Por  tanto,  var(a2)  es  sesgada, 
de  modo  que  justifica  el  enunciado  del  punto  4  anterior.  Como  0  <  r2  3  <  1  ,  parece  que  en  el 
presente  caso  var(a2)  <  (/£).  Ahora  surge  un  dilema:  aunque  a2  sea  sesgada,  su  varianza  es  mas 
pequena  que  la  varianza  del  estimador  /T  insesgado  (por  supuesto,  desechamos  el  caso  en  el  que 
r23  =  0,  pues  en  la  practica  existe  cierto  grado  de  correlacion  entre  las  regresoras).  Por  consi- 
guiente,  se  trata  de  una  situation  en  que  hay  que  sacrificar  una  cosa  por  otra.10 

Pero  aun  no  termina  esto,  pues  la  a2  estimada  del  modelo  (13.3.2)  y  la  estimada  del  modelo 
verdadero  (13.3.1)  no  son  iguales,  ya  que  la  SCR  de  los  dos  modelos,  asi  como  sus  grados  de 
libertad  (gl)  son  distintos.  Recordara  que  obtuvimos  un  estimado  de  a2  como  d2  —  SCR/gl, 
lo  cual  depende  del  numero  de  regresoras  incluidas  en  el  modelo,  asi  como  de  los  gl  (—  n. 


8  Los  resultados  de  la  regresion  son: 

fAM  =  47.5971  +  0.00256PIBPC 

ee  =  (3.5553)  (0.0011)  r2  =  0.0721 

9  Observe  que  en  el  modelo  verdadero  /§2  y  /h  son  estimaciones  insesgadas  de  sus  valores  verdaderos  o  reales. 

10  A  fin  de  superar  el  dilema  entre  el  sesgo  y  la  eficiencia,  se  puede  elegir  reducir  el  error  cuadratico  medio 
(ECM),  pues  se  relaciona  con  el  sesgo  y  la  eficiencia.  Sobre  el  ECM,  vease  el  apendice  estadfstico  (apendice 
A).  Tambien  consulte  el  ejercicio  1  3.6. 
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numero  de  parametros  estimados).  Ahora  bien,  si  anadimos  variables  al  modelo,  por  lo  general  la 
SCR  decrece  (recuerde  que  mientras  mas  variables  se  anadan  al  modelo,  mas  se  incrementa  R2), 
pero  los  grados  de  libertad  tambien  disminuyen  porque  se  estiman  mas  parametros.  El  resultado 
global  depende  de  que  la  SCR  decrezca  lo  suficiente  para  compensar  la  perdida  de  grados  de 
libertad  debido  a  la  incorporation  de  regresoras.  Es  muy  probable  que  si  una  regresora  tiene  un 
gran  impacto  sobre  la  regresada  — por  ejemplo,  puede  reducir  la  SCR  en  mayor  medida  de  lo  que 
significa  la  perdida  de  grados  de  libertad  como  resultado  de  incorporarse  al  modelo — ,  la  inclu¬ 
sion  de  tales  variables  no  solo  reduce  el  sesgo,  sino  que  tambien  aumenta  la  precision  (es  decir, 
disminuye  los  errores  estandar)  de  los  estimadores. 

Por  otra  parte,  si  las  variables  relevantes  solo  tienen  un  efecto  marginal  en  la  regresada,  y  si 
estan  muy  correlacionadas  (es  decir,  el  FIV  es  mayor),  se  puede  reducir  el  sesgo  en  los  coeficien- 
tes  de  las  variables  ya  incluidas  en  el  modelo,  pero  aumentarian  sus  errores  estandar  (es  decir,  se 
harian  menos  eficientes).  De  hecho,  la  disyuntiva  entre  mejor  precision  o  menos  sesgo,  en  esta 
situation,  puede  ser  sustancial.  Como  se  desprende  del  analisis,  la  decision  depende  de  la  impor- 
tancia  relativa  de  las  diversas  regresoras. 

Para  concluir,  consideremos  ahora  el  caso  especial  en  donde  r23  —  0,  es  decir,  X2  y  X3  no  estan 
correlacionadas.  En  este  caso,  £32  es  cero  (qpor  que?).  Por  consiguiente,  se  ve,  de  (13.3.3),  que 
«2  es  ahora  insesgada.11  Tambien,  de  (13.3.4)  y  (13.3.5)  parece  que  las  varianzas  de  <22  y  P2  son 
las  mismas.  ('  No  hay  perjuicio  entonces  en  eliminar  la  variable  X3  del  modelo  aunque  pueda  ser 
relevante  en  teoria?  La  respuesta  suele  ser  negativa,  pues,  en  este  caso,  como  ya  indicamos,  la 
var(a2)  estimada  de  (13.3.4)  es  aun  sesgada  y,  por  consiguiente,  es  probable  que  los  procedi- 
mientos  de  pruebas  de  hipotesis  continuen  siendo  dudosos.12  Ademas,  en  la  mayoria  de  investi- 
gaciones  economicas  es  probable  que  X2  y  X2  esten  correlacionadas,  lo  que  crea  los  problemas 
mencionados.  El  punto  es  muy  claro:  una  vez  formulado  el  modelo  con  base  en  la  teoria 
pertinente,  no  se  aconseja  eliminar  una  variable  de  dicho  modelo. 


Inclusion  de  una  variable  irrelevante  (sobreajuste  de  un  modelo) 

Ahora  supongamos  que 

Yt  =  ft  +  p2X2i  +  Ui  (13.3.6) 

es  verdadero,  pero  especificamos  el  siguiente  modelo: 

Yj  —  <x\  +  OL2X2  i  +  013X31  +  Vj  (13.3.7) 

y  cometemos  asi  el  error  de  especificacion  al  incluir  una  variable  innecesaria  en  el  modelo. 

Las  consecuencias  de  este  error  de  especificacion  son  las  siguientes: 

1 .  Todos  los  estimadores  de  MCO  de  los  parametros  del  modelo  “incorrecto”  son  insesgados 
y  consistentes,  es  decir,  E(a  1)  =  /fi,  E(a2)  —  /32  y  E(a2)  —  /j3  =  0. 

2.  La  varianza  del  error  a2  esta  correctamente  estimada. 

3.  Los  procedimientos  usuales  de  intervalos  de  confianza  y  de  pruebas  de  hipotesis  conservan 
su  validez. 

4.  Sin  embargo,  las  a  estimadas  por  lo  general  seran  ineficientes,  es  decir,  sus  varianzas  ge- 
neralmente  seran  mas  grandes  que  las  de  las  /)  del  verdadero  modelo.  Las  pruebas  de  algunas  de 
estas  afirmaciones  se  encuentran  en  el  apendice  13A,  seccion  13A.2.  El  punto  de  interes  aqui  es 
la  ineficiencia  relativa  de  las  a.  Esto  se  demuestra  facilmente. 


11  Observe,  sin  embargo,  que  6r\  es  aun  sesgado,  lo  cual  se  ve  intuitivamente  de  la  siguiente  manera: 
sabemos  que  ff-\  =  Y  —  P2X2  —  P3Y3,  mientras  que  oq  =  Y  —  &2X2,  y  aunque  «2  =  P2,  los  dos  estimadores 
no  seran  iguales. 

12  Para  mayores  detalles,  vease  Adrian  C.  Darnell,  A  Dictionary  of  Econometrics,  Edward  Elgar  Publisher,  1 994, 
pp.  371-372. 
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De  la  formula  usual  de  MCO  sabemos  que 

™(A)  =  ^T  (13.3.8) 

L-,x2i 

y 


Por  consiguiente, 


Como  0  <  r|3  <  1,  se  cumple  que  variety)  >  vari/L),  es  decir,  la  varianza  de  <*2  suele  ser  mas 
grande  que  la  varianza  de  fc,  aunque,  en  promedio,  0:2  =  P2  [es  decir,  E( 612)  —  Pi]- 

La  implicacion  de  este  hallazgo  es  que  la  inclusion  de  la  variable  innecesaria  X3  hace  que  la 
varianza  de  «2  sea  mas  grande  de  lo  necesario,  con  lo  cual  012  se  hace  menos  precisa.  Esto  tambien 
es  cierto  con  a\. 

Observe  la  asimetria  en  los  dos  tipos  de  sesgos  de  especificacion  que  consideramos.  Si  ex- 
cluimos  una  variable  relevante,  los  coeficientes  de  las  variables  consideradas  en  el  modelo  son 
por  lo  general  sesgados  e  inconsistentes,  la  varianza  del  error  es  incorrectamente  estimada  y 
se  invalidan  los  procedimientos  usuales  de  pruebas  de  hipotesis.  Por  otra  parte,  la  inclusion  de 
una  variable  irrelevante  en  el  modelo  proporciona  estimaciones  insesgadas  y  consistentes  de  los 
coeficientes  en  el  modelo  verdadero,  la  varianza  del  error  es  correctamente  estimada  y  los  me- 
todos  convencionales  de  pruebas  de  hipotesis  son  aun  validos;  la  unica  penalizacion  por  la  in¬ 
clusion  de  la  variable  superflua  es  que  las  varianzas  estimadas  de  los  coeficientes  son  mayores 
y,  como  resultado,  las  inferencias  probabilisticas  sobre  los  parametros  son  menos  precisas.  Una 
conclusion  no  deseada  aqui  seria  que  es  mejor  incluir  variables  irrelevantes  que  omitir  variables 
relevantes.  Pero  esta  filosofia  no  es  estricta,  pues  incluir  variables  innecesarias  genera  una  per- 
dida  de  eficiencia  de  los  estimadores  y  puede  provocar  tambien  el  problema  de  multicolinealidad 
(7, por  que?),  para  no  mencionar  la  perdida  de  grados  de  libertad.  Por  consiguiente, 

En  general,  el  mejor  enfoque  es  incluir  solo  las  variables  explicativas  que,  en  teoria,  influyan  directa- 
mente  en  la  variable  dependiente  y  no  se  hayan  tornado  en  cuenta  en  otras  variables  incluidas.13 


var(a2)  = 


£40  “4s) 


(13.3.9) 


var(a2)  1 


var(/32)  1  “  r2  3 


(13.3.10) 


13.4  Pruebas  de  errores  de  especificacion 


Conocer  las  consecuencias  de  los  errores  de  especificacion  es  una  cosa,  pero  averiguar  si  se 
cometieron  tales  errores  es  otra  muy  diferente,  pues  en  la  especificacion  no  se  espera  delibe- 
radamente  cometer  estos  errores.  Con  mucha  frecuencia,  los  sesgos  de  especificacion  surgen 
en  forma  inadvertida,  quiza  por  la  incapacidad  de  formular  el  modelo  en  la  forma  mas  precisa 
posible  debido  a  que  la  teoria  es  debil  o  a  que  no  se  tiene  la  clase  de  informacion  adecuada 
para  probar  el  modelo.  Como  observa  Davidson:  “Debido  a  la  naturaleza  no  experimental  de 
la  economia,  nunca  estamos  seguros  de  la  forma  en  que  se  generaron  los  datos  observados.  En 
economia,  resulta  que  la  prueba  de  cualquier  hipotesis  siempre  depende  de  supuestos  adicionales 
necesarios  para  especificar  un  modelo  razonablemente  ambicioso,  los  cuales  pueden  o  no  estar 
justificados”.14 


13  Michael  D.  Intriligator,  Econometric  Models,  Techniques  and  Applications,  Prentice-Hall,  Englewood  Cliffs, 
Nueva  Jersey,  1978,  p.  189.  Recuerde  el  principio  de  la  navaja  de  Occam. 

14  James  Davidson,  Econometric  Theory,  Blackwell  Publishers,  Oxford,  Inglaterra,  2000,  p.  153. 
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La  pregunta  practica  no  es  por  que  se  cometen  tales  errores,  pues  por  lo  general  los  hay, 
sino  como  detectarlos.  Una  vez  que  se  encuentran  errores  de  especificacion,  con  frecuencia  los 
remedios  surgen  por  si  mismos.  Si,  por  ejemplo,  puede  demostrarse  que  una  variable  se  omitio 
inapropiadamente  de  un  modelo,  el  remedio  obvio  es  incluirla  en  el  analisis,  suponiendo  que, 
desde  luego,  se  tenga  information  disponible  sobre  ella. 

En  esta  section  analizamos  algunas  pruebas  para  detectar  errores  de  especificacion. 


Deteccion  de  variables  innecesarias 
(sobreajuste  de  un  modelo) 

Suponga  que  desarrollamos  un  modelo  de  A:  variables  para  explicar  un  fenomeno: 

Y,  =  ft  +  P2X2i  +  •  ■  ■  +  PkXki  +  Ui  (1 3.4.1) 

Sin  embargo,  no  tenemos  una  certeza  total  de  que,  por  ejemplo,  la  variable  Xk  debe  estar  en  el 
modelo.  Una  forma  sencilla  de  averiguarlo  es  probar  la  significancia  del  ft  estimado  mediante  la 
prueba  t  usual:  t  —  ft/ee  (ft).  Pero  suponga  que  no  hay  seguridad  de  que  A3  y  A4  pertenezcan  en 
realidad  al  modelo.  Esto  se  consigue  facilmente  mediante  la  prueba  F  estudiada  en  el  capitulo  8. 
Asi,  la  deteccion  de  una  o  mas  variables  irrelevantes  no  es  dificil. 

Pero  es  muy  importante  recordar  que,  con  estas  pruebas  de  significancia,  tenemos  en  mente 
un  modelo  especifico.  Aceptamos  ese  modelo  como  hipotesis  mantenida  o  “verdad”,  sin  impor- 
tar  lo  tentativa  que  pueda  ser.  Asi,  con  ese  modelo,  mediante  las  pruebas  usuales  t  o  F  podemos 
averiguar  la  relevancia  verdadera  de  una  o  mas  regresoras.  Pero  observe  con  cuidado  que  con  las 
pruebas  t  y  F  no  podemos  construir  un  modelo  en  forma  iterativa,  es  decir,  no  podemos  decir  que 
al  principio  Y  esta  relacionada  con  X2  solo  porque  ft  es  estadisticamente  significativa,  ampliar 
luego  el  modelo  para  incluir  A3  y  luego  conservar  esa  variable  en  el  modelo  si  ft  resulta  ser  es¬ 
tadisticamente  significativo,  y  asi  sucesivamente.  Esta  estrategia  de  elaborar  un  modelo  se  llama 
metodo  ascendente  (se  empieza  con  un  modelo  mas  pequeno  y  se  amplia  conforme  se  prosigue) 
o,  un  termino  mas  descriptivo:  mineria  de  datos  (otros  nombres  son  regresion  al  tanteo,  extrac¬ 
tion  de  datos,  sondeo  de  datos  y  procesamiento  masivo  de  datos  numericos). 

El  objetivo  principal  de  la  mineria  de  datos  es  desarrollar  el  “mejor”  modelo  despues  de  varias 
pruebas  de  diagnostico,  de  manera  que  el  modelo  final  resulte  “bueno”  en  el  sentido  de  que  todos 
los  coeficientes  estimados  tengan  los  signos  “correctos”,  sean  estadisticamente  significativos  de 
acuerdo  con  las  pruebas  t  v  F,  el  valor  R2  resulte  razonablemente  alto  y  el  d  de  Durbin- Watson 
tenga  un  valor  aceptable  (alrededor  de  2),  etc.  Los  puristas  menosprecian  la  practica  de  la  mineria 
de  datos.  En  palabras  de  William  Pool,  “. .  .  siempre  resulta  arriesgado  hacer  de  una  regularidad 
empirica  el  fundamento,  en  vez  de  tomar  como  base  una  implication  de  la  teoria  economica”.15 
En  seguida  daremos  una  razon  para  “condenar”  la  mineria  de  datos. 

Nivel  de  significancia  nominal  frente  a  nivel  de  significancia  verdadero 
en  presencia  de  mineria  de  datos 

Un  peligro  de  la  mineria  de  datos  al  cual  se  enfrenta  el  investigador  desprevenido  es  que  los 
niveles  convencionales  de  significancia  (a)  como  1,  5  o  10%  no  son  los  verdaderos  niveles  de 
significancia.  Lovell  sugirio  que,  si  hay  c  candidatas  regresoras  de  las  cuales  k  son  finalmente 
seleccionadas  (k  <  c)  con  base  en  la  mineria  de  datos,  el  verdadero  nivel  de  significancia  (a*)  se 
relaciona  con  el  nivel  de  significancia  nominal  (a)  de  la  siguiente  manera:16 

a*  =  1  —  (1  —  a)cik  (13.4.2) 


15  William  Pool,  "Is  Inflation  Too  Low?",  Cato  Journal,  vol.  1 8,  num.  3,  invierno  de  1 999,  p.  456. 

16  M.  Lovell,  "Data  Mining",  Review  of  Economics  and  Statistics,  vol.  65,  1983,  pp.  1-12. 
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o  aproximadamente  como 


u*^(c/k)ct  (13.4.3) 

Por  ejemplo,  si  c  —  15,  k  —  5  y  a  —  5%,  mediante  (13.4.3),  el  verdadero  nivel  de  significancia  es 
(15/5)(5)  =  15%.  Por  consiguiente,  si  un  investigador  extrae  datos,  selecciona  5  de  15  regreso- 
ras  y  solo  informa  los  resultados  en  el  nivel  de  significancia  de  5%  nominal,  y  declara  que  estos 
resultados  son  estadisticamente  significativos,  esta  conclusion  se  debe  tomar  con  gran  reserva; 
hasta  donde  sabemos,  el  (verdadero)  nivel  de  significancia  es  en  realidad  15%.  Debe  observarse 
que  si  c  —  k,  es  decir,  si  no  se  ha  hecho  mineria  de  datos,  los  niveles  de  significancia  verdadero 
y  nominal  son  iguales.  Por  supuesto,  en  la  practica  la  mayoria  de  los  investigadores  solo  informa 
los  resultados  de  su  regresion  “final”  sin  reconocer  que  llegaron  a  los  resultados  tras  una  consi¬ 
derable  mineria  de  datos,  o  preprueba.17 

Aparte  de  algunas  desventajas  evidentes,  cada  vez  se  reconoce  mas,  sobre  todo  los  econome- 
tristas  aplicados,  que  el  metodo  purista  (es  decir,  el  que  no  realiza  mineria  de  datos)  para  elaborar 
modelos  no  es  defendible.  Como  expresa  Zaman: 

Por  desgracia,  la  experiencia  con  los  conjuntos  de  datos  reales  muestra  que  tal  enfoque  [el  purista] 
no  es  factible  ni  deseable.  No  es  factible  porque  es  una  teoria  economica  extrana  que  conduce  a  un 
modelo  unico.  No  es  deseable  porque  un  aspecto  crucial  del  aprendizaje  mediante  los  datos  es  cono- 
cer  los  tipos  de  modelos  que  los  datos  apoyan  o  rechazan.  Aunque,  por  una  extrana  suerte,  el  modelo 
inicial  mostrase  un  buen  ajuste,  con  frecuencia  resultara  importante  explorar  y  conocer  las  clases  de 
modelos  con  que  los  datos  concuerdan  o  no.18 

Kerry  Patterson  expresa  un  punto  de  vista  similar: 

Este  enfoque  [el  de  mineria  de  datos]  indica  que  la  teoria  economica  y  la  especificacion  empirica 
interactuan  en  vez  de  mantenerse  en  compartimentos  separados.19 

En  lugar  de  enredarse  con  la  disyuntiva  entre  la  mineria  de  datos  y  el  enfoque  purista  para  la 
elaboracion  de  modelos,  uno  puede  inclinarse  por  la  posicion  de  Peter  Kennedy: 

[la  especificacion  de  modelos]  necesitaria  ser  una  combinacion  bien  pensada  de  teoria  y  datos;  asi- 
mismo,  los  procedimientos  de  prueba  para  la  busqueda  de  especificaciones  deben  estar  disenados 
para  reducir  los  costos  de  la  mineria  de  datos.  Ejemplos  de  dichos  procedimientos  son:  dejar  de  lado 
datos  para  las  pruebas  de  prediccion  fuera  de  las  muestras,  ajustar  los  niveles  de  significancia  [a  la 
Lovell]  y  evitar  criterios  cuestionables,  como  maximizar  R2.20 

Si  consideramos  la  mineria  de  datos  desde  una  perspectiva  mas  amplia,  como  un  proceso  de 
descubrimiento  de  regularidades  empiricas  que  sugiriese  errores  y/u  omisiones  en  los  modelos 
teoricos  (existentes),  quiza  desempenara  un  papel  muy  util.  Para  citar  de  nueva  cuenta  a  Kennedy, 
“El  arte  del  econometrista  aplicado  consiste  en  permitir  que  la  teoria  se  deje  conducir  por  los 
datos  y  al  mismo  tiempo  evite  los  enormes  danos  que  implica  la  mineria  de  datos”.21 


17  Hay  un  analisis  detallado  de  lo  que  pueden  provocar  las  prepruebas  y  los  sesgos  en  T.D.  Wallace,  "Pretest 
Estimation  in  Regression:  A  Survey",  American  Journal  of  Agricultural  Economics,  vol.  59,  1977,  pp.  431-443. 

18  Asad  Zaman,  Statistical  Foundations  for  Econometric  Techniques,  Academic  Press,  Nueva  York,  1 996,  p.  226. 

19  Kerry  Patterson,  An  Introduction  to  Applied  Econometrics,  St.  Martin's  Press,  Nueva  York,  2000,  p.  1 0. 

20  Peter  Kennedy,  "Sinning  in  the  Basement:  What  Are  the  Rules?  The  Ten  Commandments  of  Applied 
Econometrics",  manuscrito  inedito. 

21  Kennedy,  op.  cit.,  p.  1  3. 
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Pruebas  para  variables  omitidas  y  forma  funcional  incorrecta 

En  la  practica,  nunca  estamos  seguros  de  que  el  modelo  adoptado  para  pruebas  emplricas  repre¬ 
sente  “la  verdad,  toda  la  verdad  y  nada  mas  que  la  verdad”.  Con  base  en  la  teoria  o  en  la  intros- 
peccion  y  en  el  trabajo  emplrico  previo,  desarrollamos  un  modelo  que  se  cree  recoge  la  esencia 
del  tema  en  estudio.  Luego  sometemos  el  modelo  a  una  prueba  empirica.  Despues  de  obtener 
los  resultados,  iniciamos  el  post  mortem,  teniendo  en  mente  los  criterios  ya  estudiados  de  un 
buen  modelo.  Es  en  esta  etapa  cuando  nos  enteramos  si  el  modelo  seleccionado  es  adecuado.  A1 
determinar  la  bondad  de  ajuste  del  modelo  se  observan  algunas  caracteristicas  generales  de  los 
resultados,  como  el  valor  R 2,  las  razones  t  estimadas,  los  signos  de  los  coeficientes  estimados  en 
relation  con  sus  expectativas  previas,  el  estadistico  de  Durbin- Watson,  etc.  Si  estos  diagnostics 
son  razonablemente  buenos,  podemos  afirmar  que  el  modelo  seleccionado  es  una  buena  repre¬ 
sentation  de  la  realidad.  Con  el  mismo  procedimiento,  si  los  resultados  no  parecen  estimulantes 
porque  el  valor  de  R 2  es  muy  bajo  o  porque  muy  pocos  coeficientes  son  estadisticamente  signi- 
ficativos  o  tienen  los  signos  correctos,  o  porque  el  d  de  Durbin- Watson  es  muy  bajo,  entonces 
puede  empezar  a  preocupar  la  bondad  del  ajuste  del  modelo  y  podemos  empezar  a  buscar  reme- 
dios:  tal  vez  omitimos  una  variable  importante,  utilizamos  la  forma  funcional  equivocada  o  no 
realizamos  la  primera  diferenciacion  de  la  serie  de  tiempo  (para  eliminar  la  correlacion  serial),  y 
asi  sucesivamente.  Para  determinar  si  la  incompetencia  del  modelo  se  debe  a  uno  o  mas  de  estos 
problemas  estan  algunos  de  los  siguientes  metodos. 

Examen  de  los  residuos 

Como  mencionamos  en  el  capitulo  12,  el  examen  de  los  residuos  es  un  buen  diagnostico  visual 
para  detectar  la  autocorrelation  o  la  heteroscedasticidad.  Pero  estos  residuos  tambien  se  exami- 
nan,  en  especial  en  information  de  corte  transversal,  para  detectar  errores  de  especificacion  en 
los  modelos,  como  la  omision  de  una  variable  importante  o  la  definition  de  una  forma  funcional 
incorrecta.  Si  en  realidad  existen  tales  errores,  una  grafica  de  los  residuos  permite  apreciar  pa- 
trones  distinguibles. 

Para  ilustrar  lo  anterior,  reconsidere  la  funcion  cubica  del  costo  total  de  produccion  analizada 
en  el  capitulo  7.  Suponga  que  la  verdadera  funcion  del  costo  total  se  describe  de  la  siguiente 
manera,  donde  Y  —  costo  total  y  X  —  produccion: 

Yt  =  Pi  +  fhXt  +  p3Xf  +  pAX*  +  Ui  (1 3.4.4) 

pero  un  investigador  ajusta  la  siguiente  funcion  cuadratica: 

Yj  —  a\  +  a2  Xj  +  a-^Xf  +  U2i  (13.4.5) 

y  otro  investigador  ajusta  la  siguiente  funcion  lineal: 

Yi  —  X  i  +  X2X1  +  1/3,  (1 3.4.6) 

Aunque  sabemos  que  ambos  investigadores  cometieron  errores  de  especificacion,  con  fines  pe¬ 
dagogics  veamos  como  se  comportan  los  residuos  estimados  en  los  tres  modelos.  (La  infor¬ 
macion  costo-produccion  esta  en  la  tabla  7.4.)  La  figura  13.1  habla  por  si  misma:  a  medida  que 
nos  movemos  de  izquierda  a  derecha,  es  decir,  a  medida  que  nos  acercamos  a  la  verdad,  no  solo 
los  residuos  son  mas  pequenos  (en  valor  absoluto)  sino,  asimismo,  estos  no  presentan  los  giros 
ciclicos  pronunciados  asociados  con  modelos  mal  especificados. 

La  utilidad  de  examinar  la  grafica  de  residuos  es  entonces  clara:  si  hay  errores  de  especifica¬ 
cion,  los  residuos  presentan  patrones  distinguibles. 

De  nuevo,  el  estadistico  d  de  Durbin-Watson 

Si  examinamos  el  estadistico  d  de  Durbin-Watson  que  se  calcula  de  manera  habitual  y  aparece  en 
la  tabla  13.1,  vemos  que,  para  la  funcion  lineal  de  costos,  el  d  estimado  es  0.716,  lo  cual  indica 
que  hay  “correlacion”  positiva  en  los  residuos  estimados:  para  n  —  10  y  k'  —  1,  los  valores  d 
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FIGURA  13.1 

Residuos  «,■  obtenidos  de 
las  funciones  del  costo 
total  de  tipo  a)  lineal, 
b)  cuadratica  y  c)  cubica. 


TABLA  13.1 

Residuos  estimados  de 
las  funciones  del  costo 
total  de  tipo  lineal, 
cuadratico  y  cubico 


Numero  de 

Ui, 

Ui, 

Ui, 

observacion 

modelo  lineal* 

modelo  cuadraticot 

modelo  cubico 

1 

6.600 

-23.900 

-0.222 

2 

19.667 

9.500 

1.607 

3 

13.733 

18.817 

-0.915 

4 

-2.200 

13.050 

-4.426 

5 

-9.133 

11.200 

4.435 

6 

-26.067 

-5.733 

1.032 

7 

-32.000 

-16.750 

0.726 

8 

-28.933 

-23.850 

-4.119 

9 

4.133 

-6.033 

1.859 

10 

54.200 

23.700 

0.022 

*7,  =  166.467  + 
(19.021) 
(8.752) 

tR,  =  222.383  - 
(23.488) 
(9.468) 

**?,=  141.767  + 
(6.375) 
(22.238) 


19.93326 
(3.066) 
(6.502) 
8.0250.3)  + 
(9.809) 
(-0.818) 
63.478 X,  - 
(4.778) 
(13.285) 


2.542A)2 

(0.869) 

(2.925) 

12.962 Xr+  0.939X,3 
(0.9856)  (0.0592) 

(-13.151)  (15.861) 


R2  =  0.8409 
R2  =  0.8210 
d  =  0.716 
R2  =  0.9284 
R2  =  0.9079 
d=  1.038 
R2  =  0.9983 
R2  =  0.9975 
d  =  2.70 


criticos  a  5%  son  di  —  0.879  y  dy  —  1 .320.  De  la  misma  manera,  el  valor  d  calculado  para  la  fun- 
cion  cuadratica  de  costos  es  1.038,  mientras  que  los  valores  criticos  a  5%  son  dL  —  0.697  y  dy  — 
1.641,  lo  cual  senala  indecision.  Pero  con  la  prueba  d  modificada  (vease  el  capitulo  12)  podemos 
decir  que  hay  “correlacion”  positiva  en  los  residuos,  pues  el  d  calculado  es  menor  que  dy.  Para  la 
funcion  cubica  de  costo,  la  verdadera  especificacion,  el  valor  d  estimado  no  indica  “correlacion” 
positiva  alguna  en  los  residuos.22 

La  “correlacion”  positiva  observada  en  los  residuos  cuando  ajustamos  el  modelo  lineal  o 
cuadratico  no  es  una  medida  de  correlacion  serial  (de  primer  orden)  sino  del  error  (o  errores)  de 


22 


En  el  contexto  presente,  un  valor  d  =  2  significa  que  no  hay  error  de  especificacion.  (^.Por  que?) 
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especificacion  (del  modelo).  La  correlacion  observada  tan  solo  refleja  que  hay  una  o  mas  varia¬ 
bles  pertenecientes  al  modelo  incluidas  en  el  termino  de  error  y  necesitan  desecharse  de  este  e 
introducirse,  por  derecho  propio,  como  variables  explicativas:  si  excluimos  X3  de  la  funcion  de 
costos,  entonces,  como  lo  muestra  (13.2.3),  el  termino  de  error  en  el  modelo  mal  especificado 
(13.2.2)  es  en  realidad  (uu  +  faX3),  el  cual  presenta  un  patron  sistematico  (por  ejemplo,  de 
autocorrelation  positiva)  si  en  realidad  X3  afecta  a  Y  significativamente. 

Para  aplicar  la  prueba  de  Durbin- Watson  para  detectar  error  (o  errores)  de  especificacion  de 
un  modelo,  procedemos  de  la  siguiente  manera: 

1 .  A  partir  de  un  modelo  supuesto,  obtenga  los  residuos  de  MCO. 

2.  Si  se  cree  que  el  modelo  supuesto  esta  mal  especificado  porque  excluye  una  variable  ex- 
plicativa  relevante,  por  ejemplo,  Z,  ordene  los  residuos  obtenidos  en  el  paso  1  de  acuerdo  con 
los  valores  crecientes  de  Z.  Nota:  La  variable  Z  puede  ser  una  de  las  variables  X  incluidas  en  el 
modelo  supuesto  o  algun  tipo  de  funcion  de  esa  variable,  como  X2  oX3. 

3.  Calcule  el  estadistico  d  a  partir  de  los  residuos  asi  ordenados  mediante  la  formula  d  usual, 
a  saber, 

,  £"=2(W'  -  Ut-\? 

£/=i  ut 

Nota:  En  este  contexto,  el  subindice  t  es  el  indice  de  la  observation  que  no  necesariamente  se 
refiere  a  una  serie  de  tiempo. 

4.  Con  base  en  las  tablas  de  Durbin- Watson,  si  el  valor  d  estimado  es  significativo,  se  puede 
aceptar  la  hipotesis  de  mala  especificacion  del  modelo.  Si  es  asi,  las  medidas  correctivas  surgen 
naturalmente  por  si  mismas. 

En  el  ejemplo  de  costos,  la  variable  Z(—X)  (produccion)  ya  fue  ordenada.23  Por  consiguiente, 
no  es  preciso  calcular  otra  vez  el  estadistico  d.  Como  vimos,  el  estadistico  d  para  las  funciones 
de  costos  lineal  y  cuadratica  indica  la  presencia  de  errores  de  especificacion.  Los  remedios  son 
claros:  introduzca  los  terminos  cuadratico  y  cubico  en  la  funcion  lineal  de  costos  y  el  termino 
cubico  en  la  funcion  cuadratica  de  costos.  En  resumen,  efectue  la  regresion  del  modelo  cubico 
de  costos. 

Prueba  RESET  de  Ramsey 

Ramsey  propuso  una  prueba  general  de  errores  de  especificacion  conocida  como  RESET  (prueba 
del  error  de  especificacion  en  regresion).24  Aqui  solo  ilustraremos  la  version  mas  sencilla  de  la 
prueba.  Para  establecer  los  conceptos,  continuaremos  con  el  ejemplo  costo-produccion  y  supon- 
dremos  que  la  funcion  de  costos  es  lineal  en  la  produccion  de  la  siguiente  forma: 

Yi  —  X  i  +  X2X1  +  UT,i  (1 3.4.6) 

donde  Y  —  costo  total  y  X  —  produccion.  Ahora,  si  graficamos  los  residuos  w,  obtenidos  de  esta 
regresion  frente  a  Y„  la  estimation  de  Y,  de  este  modelo,  obtenemos  la  grafica  de  la  figura  13.2. 
Aunque  u,  y  u,  Y,  necesariamente  son  cero  (,',por  que?,  vease  el  capitulo  3),  los  residuos  en 
esta  figura  muestran  un  patron  en  el  cual  su  media  cambia  sistematicamente  con  Yt.  Esto  indicaria 
que  si  introdujeramos  Y,  en  alguna  forma  como  regresora(s)  en  (13.4.6),  deberia  incremental'  K1. 
Y  si  el  incremento  en  R2  es  estadlsticamente  significativo  (con  base  en  la  prueba  F  analizada  en 


23  No  importa  si  se  ordena  u,  de  acuerdo  con  Xj  o  con  X 3  pues  son  funciones  de  X„  la  cual  ya  se  ordeno. 
24J.B.  Ramsey,  "Tests  for  Specification  Errors  in  Classical  Linear  Least  Squares  Regression  Analysis",  Journal  of 
the  Royal  Statistical  Society,  serie  B,  vol.  31 ,  1 969,  pp.  350-371 . 
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FIGURA  13.2 

Residuos  «,•  y  Y 
estimados  de  la  funcion 
lineal  de  costos: 

Yi  =  A  ]  +  /-2^i  +  Wj. 
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el  capltulo  8),  esto  sugeriria  que  la  funcion  lineal  de  costos  (13.4.6)  estaba  mal  especificada.  Esta 
es  la  idea  esencial  de  la  prueba  RESET.  Los  pasos  de  RESET  son  los  siguientes: 

1.  A  partir  del  modelo  seleccionado,  por  ejemplo,  el  (13.4.6),  obtenga  Y,  estimada,  es  decir,  Yt. 

2.  Efectue  de  nuevo  la  regresion  (13.4.6)  introduciendo  ),  en  alguna  forma,  como  una  o  va- 
rias  regresoras  adicionales.  En  la  figura  13.2,  observamos  una  relacion  curvilinea  entre  it,  y  Y,, 
que  indica  que  se  pueden  introducir  Y}  y  Yf  como  regresoras  adicionales.  Asi,  efectuamos  la 
regresion 


Yi  =  Pi  +  PiXi  +P,Yf  +  p4  Yf  +  Ui  (1 3.4.7) 

3.  Sea  R2  obtenida  de  (13.4.7)  /^lueva,  y  la  obtenida  de  (13.4.6),  R2lcyd-  Entonces  utilizamos  la 
prueba  F  introducida  ya  en  (8.4.18),  a  saber, 


(A'nucva  —  R2ie ja)  / numero  de  regresoras  nuevas 
(l  —  ^nueva) /(w  ~  numero  de  parametros  en  el  nuevo  modelo) 


(8.4.18) 


para  averiguar  si  el  incremento  en  R2,  con  (13.4.7),  es  estadisticamente  significativo. 

4.  Si  el  valor  F  calculado  es  significativo,  por  ejemplo,  en  el  nivel  de  5%,  podemos  aceptar  la 
hipotesis  de  que  el  modelo  (13.4.6)  esta  mal  especificado. 

De  regreso  en  el  ejemplo  ilustrativo,  tenemos  los  siguientes  resultados  (los  errores  estandar 
estan  entre  parentesis): 


Yt  =  166.467  +  19.933 Xt 

(19.021)  (3.066)  R2  =  0.8409 


(13.4.8) 


Capftulo  1  3  Creadon  de  modelos  econometricos:  espedficadon  del  modelo  y  pruebas  de  diagnostico  481 


Y,  —  2  140.7223  +  476.6557X,  -  0.09187T,2  +  0.000119^ 
(132.0044)  (33.3951)  (0.00620)  (0.0000074) 

R2  =  0.9983 


Nota:  Y2  y  Y '?  en  (13.4.9)  se  obtienen  de  (13.4.8). 
Ahora,  al  aplicar  la  prueba  F,  tenemos  que 


(0.9983  -  0.8409)/2 
~~  (1  —  0.9983)/(10  —  4) 

=  284.4035 


(13.4.9) 


(13.4.10) 


El  lector  puede  verifkar  facilmente  que  este  valor  F  es  muy  significative,  lo  cual  indica  que 
el  modelo  (13.4.8)  esta  mal  especificado.  Por  supuesto,  llegamos  a  la  misma  conclusion  con  el 
examen  visual  de  los  residuos  como  tambien  con  el  valor  d  de  Durbin- Watson.  Debe  anadirse 
que,  en  vista  de  que  Y,  es  estimada,  se  trata  de  una  variable  aleatoria  y,  por  tanto,  las  pruebas  de 
significancia  habituales  aplican  si  la  muestra  es  razonablemente  grande. 

Una  ventaja  de  RESET  es  que  es  facil  de  aplicar,  pues  no  requiere  la  especificacion  del  mo- 
delo  alterno.  Sin  embargo,  esta  tambien  es  su  desventaja,  pues  saber  que  el  modelo  esta  mal 
especificado  no  necesariamente  ayuda  a  elegir  una  option  mejor. 

Como  apunta  un  autor: 

En  la  practica,  la  prueba  RESET  puede  no  ser  particularmente  buena  para  detectar  algguna  alterna- 
tiva  especifica  para  un  modelo  propuesto,  y  su  utilidad  radica  en  que  sirve  como  indicador  general 
de  que  algo  esta  mal.  Por  esta  razon,  una  prueba  como  RESET  se  describe  en  ocasiones  como  una 
prueba  de  especificacion  incorrecta  en  lugar  de  una  prueba  de  especificacion.  Esta  distincion  es  muy 
sutil,  pero  la  idea  basica  es  que  una  prueba  de  especificacion  examina  algun  aspecto  particular  de  una 
ecuacion  dada,  teniendo  en  mente  hipotesis  claras  nula  y  alternativa.  Una  prueba  de  especificacion 
incorrecta,  por  otra  parte,  puede  detectar  varias  opciones  e  indica  que  algo  esta  mal  segun  la  hipotesis 
nula,  sin  ofrecer  necesariamente  guia  clara  en  cuanto  a  la  hipotesis  alterna  apropiada.25 

Prueba  del  multiplicador  de  Lagrange  (ML)  para  agregar  variables 

Esta  es  una  alternativa  para  la  prueba  RESET  de  Ramsey.  Para  explicar  esta  prueba,  continuare- 

mos  con  el  ejemplo  ilustrativo  anterior. 

Si  comparamos  la  funcion  lineal  de  costos  (13.4.6)  con  la  funcion  cubica  de  costos  (13.4.4), 
la  primera  es  una  version  restringida  de  la  ultima  (recuerde  el  analisis  de  mfnimos  cuadrados 
restringidos,  del  capitulo  8).  La  regresion  restringida  (13.4.6)  supone  que  los  coeficientes  de  los 
terminos  de  produccion  elevados  al  cuadrado  y  al  cubo  son  iguales  a  cero.  Para  probar  esto,  la 
prueba  ML  se  realiza  de  la  siguiente  manera: 

1.  Estime  la  regresion  restringida  (13.4.6)  mediante  MCO  y  obtenga  los  residuos,  it,. 

2.  Si  la  regresion  no  restringida  (13.4.4)  resulta  ser  la  verdadera  regresion,  los  residuos  obte- 
nidos  en  (13.4.6)  deben  estar  relacionados  con  los  terminos  de  la  produccion  elevada  al  cuadrado 
y  al  cubo,  es  decir,  X2  y  Xf. 

3.  Esto  indica  que  se  efectue  la  regresion  de  los  u,  obtenidos  en  el  paso  1  sobre  todas  las  re- 
gresoras  (incluidas  las  de  la  regresion  restringida),  lo  cual,  en  el  presente  caso,  significa  que 

u,  —  ai  +  (*2  Xt  +  a^X2  +  a^X)  +  V;  (1 3.4.1 1) 

donde  v  es  un  termino  de  error  con  las  propiedades  usuales. 


25  Jon  Stewart  y  Len  Gill,  Econometrics,  2a.  ed.,  Prentice-Hall  Europe,  1998,  p.  69. 
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4.  Para  un  tamano  de  muestra  grande,  Engle  demostro  que  n  (el  tamano  de  la  muestra)  multi- 
plicado  pori?2  estimado  en  la  regresion  (auxiliar)  (13.4.1 1)  sigue  una  distribucionji  cuadrada  con 
gl  iguales  al  niimero  de  restricciones  impuestas  por  la  regresion  restringida,  dos  en  el  ejemplo 
presente,  pues  los  terminos  Xj  y  X 2  son  eliminados  del  modelo.26  Simbolicamente,  escribimos 


nR 2 


^(numero  de  restricciones) 


(13.4.12) 


donde  asin  significa  asintoticamente,  es  decir,  en  muestras  grandes. 

5.  Si  el  valor  ji  cuadrada  obtenido  de  (13.4.12)  excede  el  valor  ji  cuadrada  critico  en  el  nivel 
de  significancia  seleccionado,  rechazamos  la  regresion  restringida.  De  lo  contrario,  no  la  recha- 
zamos. 

Para  el  ejemplo,  los  resultados  de  la  regresion  son  los  siguientes: 

%  =  166.467+  19.333X,  (13.4.13) 

donde  Y  es  el  costo  total  y  X  es  la  produccion.  Los  errores  estandar  para  esta  regresion  ya  estan 
en  la  tabla  13.1. 

Cuando  se  hace  la  regresion  con  los  residuos  de  (13.4.13),  como  se  acaba  de  sugerir  en  el  paso 
3,  obtenemos  los  siguientes  resultados: 

ut  =-  24.7  +  43.5443A,  -  12.9615A2  +  0.9396X2 

ee  =  (6.375)  (4.779)  (0.986)  (0.059)  (13.4.14) 

R2  =  0.9896 

Aunque  el  tamano  de  la  muestra  es  de  10,  es  decir,  no  es  grande,  solo  para  ilustrar  el  mecanismo 
ML,  obtenemos  nR 2  =  (10)(0.9896)  =  9.896.  De  la  tabla  ji  cuadrada  observamos  que,  para  2  gl, 
el  valor  ji  cuadrada  critico  a  1%  es  alrededor  de  9.21.  Por  consiguiente,  el  valor  observado  de 
9.896  es  significativo  en  el  nivel  de  1%  y  la  conclusion  seria  rechazar  la  regresion  restringida 
(es  decir,  la  funcion  lineal  de  costos).  Con  base  en  la  prueba  RESET  de  Ramsey  llegamos  a  una 
conclusion  similar. 


13.5  Errores  de  medicion 


Todo  el  tiempo  hemos  supuesto  implicitamente  que  las  mediciones  de  la  variable  dependiente 
Y  y  de  las  variables  explicativas,  las  X,  se  realizan  sin  error.  Asi,  en  la  regresion  del  gasto  de 
consumo  sobre  el  ingreso  y  la  riqueza  de  las  unidades  familiares  suponemos  que  la  information 
sobre  estas  variables  es  “precisa”;  que  no  se  trata  de  estimaciones  supuestas,  extrapolaciones, 
interpolaciones  o  aproximaciones  realizadas  en  forma  sistematica,  como  la  aproximacion  a  la 
centesima  de  dolar  mas  cercana  y  asi  sucesivamente.  Por  desgracia,  este  ideal  no  se  cumple  en 
la  practica  por  diversas  razones,  como  errores  de  no  respuesta,  en  los  informes  y  de  computation. 
Cualesquiera  que  sean  las  razones,  el  error  de  medicion  es  un  problema  en  potencia  complicado, 
pues  constituye  aun  otro  ejemplo  de  sesgo  de  especificacion  con  las  consecuencias  que  veremos 
en  seguida. 


Errores  de  medicion  en  la  variable  dependiente  Y 

Considere  el  siguiente  modelo: 

Y*  =  a  +  fiX,  +  ui  (13.5.1) 


26  R.F.  Engle,  "A  General  Approach  to  Lagrangian  Multiplier  Model  Diagnostics",  lournal  of  Econometrics,  vol. 
20,  1982,  pp.  83-104. 
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donde  Y*  —  gasto  de  consumo  permanente27 
Xj  —  ingreso  actual 

iij  =  termino  de  perturbacion  estocastico 

Como  Y*  no  puede  medirse  directamente,  podemos  utilizar  una  variable  de  gasto  observable  Y, 
tal  que 

Y,  =  Y*  + s,  (13.5.2) 

donde  £,-  denota  los  errores  de  medicion  en  Y*.  Por  consiguiente,  en  lugar  de  estimar  (13.5.1), 
estimamos 


Yj  —  (a  +  fiXj  +  Ui )  +  Si 

=  oi  +  fix,  +  (u,  +  sO  (13.5.3) 

—  oi  +  pXi  +  v. 


donde  v,-  =  u,  +  e,  es  un  termino  de  error  compuesto,  que  contiene  el  termino  de  perturbacion 
poblacional  (el  cual  puede  llamarse  termino  de  error  ecuacional )  y  el  termino  de  error  de  me¬ 
dicion. 

Por  simplicidad,  suponga  que  E(u,)  —  E(e,)  —  0,  covtA),  u,)  =  0  (el  supuesto  de  la  regresion 
lineal  clasica)  y  la  cov(X,,  e,)  =  0;  es  decir,  los  errores  de  medicion  en  Y*  no  estan  correlacionados 
con  Xj  y  la  cov(m„  £,)  =  0;  es  decir,  el  error  ecuacional  y  el  error  de  medicion  no  estan  correla¬ 
cionados.  Con  estos  supuestos,  vemos  que  la  ft  estimada  de  (13.5.1)  o  (13.5.3)  sera  un  estimador 
insesgado  de  la  verdadera  ft  (vease  el  ejercicio  13.7);  es  decir,  los  errores  de  medicion  en  la 
variable  dependiente  Y  no  destruyen  la  propiedad  de  insesgamiento  de  los  estimadores  de  MCO. 
Sin  embargo,  las  varianzas  y  los  errores  estandar  de  la  ft  estimada  de  (13.5.1)  y  (13.5.3)  seran 
diferentes  porque,  con  las  formulas  usuales  (vease  el  capitulo  3),  obtenemos 


Modelo  (13.5.1): 


Modelo  (13.5.3): 


var(/3)  = 


E*f 


var(/S)  = 


a},  +  o; 


T,xf 


(13.5.4) 


(13.5.5) 


Obviamente,  la  ultima  varianza  es  mas  grande  que  la  primera.28  Por  tanto,  aunque  los  errores 
de  medicion  en  la  variable  dependiente  aun  producen  estimaciones  insesgadas  de  los  para- 
metros  y  de  sus  varianzas,  las  varianzas  estimadas  ahora  son  mas  grandes  que  cuando  no 
existen  tales  errores  de  medicion. 


Errores  de  medicion  en  la  variable  explicativa  X 

Suponga  ahora  que,  en  lugar  de  (13.5.1),  tenemos  el  siguiente  modelo: 

Yi=a  +  pXf  +  ui  (13.5.6) 

donde  Yt  —  gasto  de  consumo  actual 
X*  —  ingreso  permanente 
Ui  —  termino  de  perturbacion  (error  ecuacional) 


27  Esta  frase  se  atribuye  a  Milton  Friedman.  Vease  tambien  el  ejercicio  1  3.8. 

28  Sin  embargo,  observe  que  esta  varianza  es  aun  insesgada  porque,  en  las  condiciones  establecidas,  el  ter¬ 
mino  de  error  compuesto  v,  =  Uj  +  e\  aun  satisface  los  supuestos  en  los  cuales  se  basa  el  metodo  de  mihimos 
cuadrados. 
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Suponga  que  en  lugar  de  X*,  observamos 

Xi=X*  +  Wi  (13.5.7) 

donde  w,  representa  los  errores  de  medicion  en  X*.  Por  consiguiente,  en  lugar  de  estimar  (13.5.6), 
estimamos 


Yi  —  a  +  P (Xj  -Wi)  +  Ui 

=  a  +  pXi  +  (m  -  pwi)  (13.5.8) 

—  tx  +  pXj  +  Zi 

donde  z,  —  ui  —  Pwu  una  composition  de  errores  ecuacional  y  de  medicion. 

Ahora  bien,  aunque  supongamos  que  w,  tiene  media  cero,  es  serialmente  independiente  y  no 
esta  correlacionado  con  u„  no  podemos  suponer  todavia  que  el  termino  de  error  compuesto  z,  es 
independiente  de  la  variable  explicativa  Xt  porque  [suponiendo  que  E  [z,]  =  0] 

cov(zi,  Xt)  =  E[zj  -  E{zi)][Xi  -  E(Xj)] 

—  E(uj  —  Pwi)(wi)  con  (13.5.7) 

=  E(-Pwf)  (13.5.9) 

=- 


Asi,  la  variable  explicativa  y  el  termino  de  error  en  (13.5.8)  estan  correlacionados,  lo  cual  viola 
el  supuesto  basico  del  modelo  clasico  de  regresion  lineal  de  que  la  variable  explicativa  no  esta 
correlacionada  con  el  termino  de  perturbation  estocastico.  Si  se  viola  este  supuesto,  puede  de- 
mostrarse  que  los  estimadores  de  MCO  no  solamente  estan  sesgados,  sino  que  son  tambien 
inconsistentes,  es  decir,  permanecen  sesgados  aunque  el  tamano  de  la  muestra,  n,  aumente  in¬ 
definidamente.29 

Para  el  modelo  (13.5.8),  se  demuestra  en  el  apendice  13A,  section  13A.3,  que 


plim  p  =  p 


1 

1  + 


(13.5.10) 


donde  a2  y  a\,  son  las  varianzas  de  w,  y  de  A*,  respectivamente,  y  donde  plim/1  significa  el 
limite  en  probabilidad  de  p. 

Como  se  espera  que  el  termino  entre  corchetes  sea  menor  que  1  (^por  que?),  (13.5.10)  indica 
que,  aunque  el  tamano  de  la  muestra  aumente  indefinidamente,  P  no  convergira  hacia  p.  De 
hecho,  si  se  supone  que  P  es  positivo,  P  subestimara  a  p,  es  decir,  es  sesgado  hacia  cero.  Por 
supuesto,  si  no  hay  errores  de  medicion  en  X  (es  decir,  a 2  —  0),  p  servira  como  estimador  con- 
sistente  de  p. 

Por  tanto,  los  errores  de  medicion  constituyen  un  grave  problema  cuando  estan  presentes  en 
la(s)  variable(s)  explicativa(s)  porque  su  presencia  hace  imposible  la  estimacion  consistente  de  los 
parametros.  Por  supuesto,  como  vimos,  si  estos  estan  presentes  solo  en  la  variable  dependiente, 
los  estimadores  permanecen  insesgados  y,  por  ende,  son  por  igual  consistentes.  Si  los  errores  de 
medicion  estan  presentes  en  las  variables  explicativas,  ^cual  es  la  solucion?  La  respuesta  no  es 
facil.  En  un  extremo,  podemos  suponer  que  si  a2  es  pequena  comparada  con  o\„  para  todos  los 
fines  practicos  podemos  suponer  “que  no  existe”  el  problema  y  proceder  con  la  estimacion  usual 


29  Como  se  demuestra  en  el  apendice  A,  fl  es  un  estimador  consistente  de  fS  pues,  a  medida  que  n  au- 
menta  indefinidamente,  la  distribucion  muestral  de  ft  tendera  al  verdadero  ft.  En  terminos  tecnicos,  esto  se 
plantea  asf:  plfm^^/i  =  ft.  Como  se  anota  en  el  apendice  A,  la  consistencia  es  una  propiedad  de  muestras 
grandes  y  a  menudo  se  utiliza  para  estudiar  el  comportamiento  de  un  estimador  cuando  no  pueden  deter- 
minarse  sus  propiedades  finitas  o  de  muestras  pequenas  (por  ejemplo,  insesgamiento). 
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por  MCO.  Desde  luego,  el  tropiezo  aqul  es  que  no  es  posible  observar  o  medir  a2  ni  a\,  facil- 
mente,  y  por  consiguiente,  no  hay  forma  de  juzgar  sus  magnitudes  relativas. 

Otro  remedio  sugerido  son  las  variables  instrumentales  o  representantes  (proxy)  que,  aun- 
que  estan  muy  correlacionadas  con  las  variables  X  originales,  no  estan  correlacionadas  con  los 
terminos  de  error  ecuacional  y  de  medicion  (es  decir,  u,  y  w,).  Si  es  posible  encontrar  tales  varia¬ 
bles  representantes,  tambien  lo  es  obtener  una  estimacion  consistente  de  fJ>.  Pero  es  mucho  mas 
facil  hablar  sobre  esta  labor  que  hacerla.  En  la  practica,  no  es  facil  encontrar  buenas  variables 
representantes;  con  frecuencia  estamos  en  una  situacion  de  inconformidad  sobre  el  mal  clima 
sin  ser  capaces  de  hacer  mucho  al  respecto.  Ademas,  no  es  facil  saber  si  la  variable  instrumental 
seleccionada  es  en  realidad  independiente  de  los  terminos  de  error  u,  y  w,. 

En  la  teoria  hay  otras  sugerencias  para  resolver  el  problema.30  Pero  la  mayoria  es  especifica 
de  cada  situacion  y  sus  supuestos  son  restrictivos.  En  realidad  no  hay  respuesta  satisfactoria  al 
problema  de  los  errores  de  medicion.  Por  esto  es  tan  crucial  que  la  medicion  de  los  datos  sea  lo 
mas  precisa  posible. 


EJEMPLO  13.2 

Un  ejemplo 


Concluimos  esta  seccion  con  un  ejemplo  construido  para  resaltar  los  puntos  anteriores. 

La  tabla  1  3.2  proporciona  informacion  hipotetica  sobre  el  gasto  de  consumo  verdadero  Y* , 
el  ingreso  verdadero  X*,  el  consumo  medido  Y y  el  ingreso  medido  X.  La  tabla  tambien  explica 
la  forma  como  se  midieron  estas  variables.31 

Errores  de  medicion  solo  en  la  variable  dependiente  Y.  Con  base  en  esta  informacion,  la 
verdadera  funcion  de  consumo  es 


?*=  25.00  +  0.6000X* 

(10.477)  (0.0584) 

t=  (2.3861)  (10.276) 

R2  =  0.9296 


(13.5.11) 


TABLA  13.2 

Informacion  hipotetica 
sobre  Y*  (verdadero 
gasto  de  consumo), 

X*  (verdadero  ingre¬ 
so),  Y  (gasto  de  consu¬ 
mo  medido)  y  X 
(ingreso  medido). 
Todas  las  cifras  estan 
en  dolares 


Y* 

X* 

Y 

X 

e 

w 

u 

75.4666 

80.00 

67.6011 

80.0940 

-7.8655 

0.0940 

2.4666 

74.9801 

100.00 

75.4438 

91.5721 

0.4636 

-8.4279 

-10.0199 

102.8242 

120.00 

109.6956 

112.1406 

6.8714 

2.1406 

5.8242 

125.7651 

140.00 

129.4159 

145.5969 

3.6509 

5.5969 

16.7651 

106.5035 

160.00 

104.2388 

168.5579 

-2.2647 

8.5579 

-14.4965 

131.4318 

180.00 

125.8319 

171.4793 

-5.5999 

-8.5207 

-1.5682 

149.3693 

200.00 

153.9926 

203.5366 

4.6233 

3.5366 

4.3693 

143.8628 

220.00 

152.9208 

222.8533 

9.0579 

2.8533 

-13.1372 

177.5218 

240.00 

176.3344 

232.9879 

-1.1874 

-7.0120 

8.5218 

182.2748 

260.00 

174.5252 

261.1813 

-7.7496 

1.1813 

1.2748 

Nota:  Se  supone  que  los  datos  sobre  X*  estan  dados.  En  la  derivation  de  las  demas  variables,  los  supuestos  fueron  los  siguientes: 

1 )  E(ui)  =  E(ei)  =  E(w,)  =  0;  2)  cov  (X,  u)  =  cov  (X,  e)  =  cov  (u,  e)  =  cov  (w,  u)  —  cov  (s,  w)  =  0;  3)  oj,2  =  100,  <r,2  —  36,  y  ai  36; 
y  4)  rf  =  25  +  0.6X*  +  u, ,  Y,  =  Yf  +  e,  yX,  =  Xf  +  w,. 

( continue 1) 


30  Vease  Thomas  B.  Fomby,  R.  Carter  Hill  y  Stanley  R.  Johnson,  Advanced  Econometric  Methods,  Springer-Ver- 
lag,  Nueva  York,  1 984,  pp.  273-277.  Vease  tambien  Kennedy,  op.  cit.,  pp.  1  38-1 40,  para  un  analisis  sobre 
regresion  ponderada  y  variables  instrumentales.  Tambien  G.S.  Maddala,  Introduction  to  Econometrics,  3a.  ed., 
John  Wiley  &  Sons,  Nueva  York,  2001,  pp.  437-462,  y  Quirino  Paris,  "Robust  Estimators  of  Errors-in-Variables 
Models:  Part  I",  documento  de  trabajo  num.  04-007,  200,  Departamento  de  Economfa  Agricola  y  de  Recur- 
sos,  Universidad  de  California  en  Davis,  agosto  de  2004. 

31  El  autor  agradece  a  Kenneth  J.  White  la  elaboracion  de  este  ejemplo.  Vease  su  Computer  Handbook  Using 
SHAZAM,  para  utilizarse  con  Damodar  Gujarati,  Basic  Econometrics,  septiembre  de  1 985,  pp.  1 1 7-1 21 . 
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EJEMPLO  13.2 

(continuation) 


mientras  que  si  utilizamos  V)  en  lugar  de  Y*,  obtenemos 

Y,  =  25.00  +  0.6000X* 

(12.218)  (0.0681) 
t=  (2.0461)  (8.8118) 
Rz  =  0.9066 


(13.5.12) 


Como  indican  estos  resultados  y  de  acuerdo  con  la  teorfa,  los  coeficientes  estimados  continuan 
siendo  iguales.  El  unico  efecto  de  los  errores  de  medicion  en  la  variable  dependiente  es  que  los 
errores  estandar  estimados  de  los  coeficientes  tienden  a  ser  mas  grandes  [vease  (1  3.5.5)],  lo  cual 
se  aprecia  con  claridad  en  (1  3.5.1 2).  A  proposito,  observe  que  los  coeficientes  de  regresion  en 
(1  3.5.1 1 )  y  (1  3.5.1 2)  son  los  mismos  porque  la  muestra  se  genera  para  cumplir  con  los  supues¬ 
tos  del  modelo  de  errores  de  medicion. 

Errores  de  medicion  en  X.  Sabemos  que  la  regresion  verdadera  es  (13.5.11).  Suponga  ahora 
que  en  lugar  de  X*  utilizamos  X,.  ( Nota :  En  realidad,  X*  pocas  veces  es  observable.)  Los  resulta¬ 
dos  de  la  regresion  son  los  siguientes: 

Y*=  25.992  +  0.5942X/ 


(11.0810)  (0.0617) 

t  =  (2.3457)  (9.6270) 

R2  =  0.9205 


(13.5.13) 


Estos  resultados  estan  de  acuerdo  con  la  teorfa:  cuando  hay  errores  de  medicion  en  la(s) 
variable(s)  explicativa(s),  los  coeficientes  estimados  estan  sesgados.  Porfortuna,  en  este  ejemplo 
el  sesgo  es  relativamente  pequeno;  de  (1  3.5.10)  es  evidente  que  el  sesgo  depende  de  azla\,, 
y  en  la  generacion  de  la  informacion  supusimos  que  a2  =  36  y  cr|*  =  3  667,  con  lo  que  reduji- 
mos  el  factor  de  sesgo,  alrededor  de  0.98%  (=  36/3  667). 

Dejamos  al  lector  averiguar  lo  que  sucede  cuando  hay  errores  de  medicion  en  Yy  en  X,  es 
decir,  cuando  efectuamos  la  regresion  de  Y,  sobre  X,  en  lugar  de  hacerla  de  Y*  sobre  X*  (vease 
el  ejercicio  1  3.23). 


13.6  Especificacion  incorrecta  del  termino  de  error  estocastico 


Un  problema  comun  de  los  investigadores  es  la  especificacion  del  termino  de  error  u„  que  ingresa 
en  el  modelo  de  regresion.  Como  el  termino  de  error  no  se  puede  observar  de  manera  directa, 
no  hay  una  forma  sencilla  de  determinar  la  forma  en  que  ingresa  en  el  modelo.  A  fin  de  ver  lo 
anterior,  considere  los  modelos  de  (13.2.8)  y  (13.2.9).  Por  simplicidad  de  la  exposition,  supusi¬ 
mos  que  no  hay  intercepto  en  el  modelo.  Ademas,  supondremos  que  u,  en  (13.2.8)  es  tal  que  In  u, 
satisface  los  supuestos  caracteristicos  de  MCO. 

Si  suponemos  que  (13.2.8)  es  el  modelo  “correcto”  pero  estimamos  (13.2.9),  ,',cuales  son 
las  consecuencias?  En  el  apendice  13.A,  section  13A.4,  se  muestra  que  si  In  u,  ~  ,¥((),  a2),  en- 
tonces 


Uj  ~  lognormal  [e^2,  e*2 (e°2  -  1)]  (13.6.1) 


como  resultado: 


E(a)  =  Pe°112 


(13.6.2) 


donde  e  es  la  base  del  logaritmo  natural. 
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Como  se  aprecia,  a  es  un  estimador  sesgado,  pues  su  valor  promedio  no  es  igual  a  la  verda- 
dera  ft. 

Veremos  mas  respecto  de  la  especificacion  del  termino  de  error  estocastico  en  el  capltulo 
sobre  los  modelos  de  regresion  no  lineales  en  los  parametros. 


13.7  Modelos  anidados  y  no  anidados 


A1  efectuar  la  prueba  de  especificacion,  es  util  diferenciar  entre  modelos  anidados  y  no  anida¬ 
dos.  Para  distinguirlos,  considere  los  siguientes  modelos: 

Modelo  A:  Yt  —  fi\  +  fcXn  +  /I3X3,  +  /I4X4,  +  /I5X5,'  +  u, 

Modelo  B:  Y,  —  /A X21  -b  /b  A3,  -(-  u ; 

Decimos  que  el  modelo  B  esta  anidado  en  el  modelo  A  porque  es  un  caso  especial  del  modelo  A: 
si  estimamos  el  modelo  A  y  probamos  la  hipotesis  de  que  /i4  =  (J>5  —  0  y  no  sc  rechaza  con  base 
en  la  prueba  F,i2  el  modelo  A  se  reduce  al  modelo  B.  Si  anadimos  la  variable  X4  al  modelo  B, 
el  A  se  reducira  al  B,  si  /A  es  cero;  en  este  caso  aplicaremos  la  prueba  /  a  la  hipotesis  de  que  el 
coeficiente  dc  X5  es  cero. 

Sin  llamarlas  de  ese  modo,  las  pruebas  de  error  de  especificacion  que  acabamos  de  analizar  y 
la  prueba  F  restringida  que  vimos  en  el  capitulo  8  son  en  esencia  pruebas  de  hipotesis  anidadas. 
Ahora  considere  los  siguientes  modelos: 

Modelo  C:  Yt  =  aq  +  0:2X2, ■  +  0:3X3, ■  +  tq 

Modelo  D:  Y,  —  /3\  +  /I2Z2,  +  ft 3  Z31  +  v,- 

donde  las  X  y  las  Z  son  variables  distintas.  Decimos  que  los  modelos  C  y  D  son  no  anidados 
porque  no  puede  derivarse  uno  como  caso  especial  del  otro.  En  economia,  como  en  otras  ciencias, 
mas  de  una  teoria  puede  explicar  un  fenomeno.  Por  tanto,  los  monetaristas  pueden  destacar  la 
funcion  del  dinero  al  explicar  los  cambios  del  PIB,  en  tanto  que  los  keynesianos  pueden  explicar- 
los  mediante  las  variaciones  en  el  gasto  gubernamental. 

Debe  notarse  que  se  puede  permitir  que  los  modelos  C  y  D  contengan  regresoras  comunes  a 
ambos.  Por  ejemplo,  X3  puede  incluirse  en  D,  y  Z2  en  C.  Aun  asi,  estos  modelos  son  no  anidados, 
pues  el  modelo  C  no  contiene  a  Z3,  y  el  modelo  D  no  contiene  a  X2. 

Aunque  se  encuentren  las  mismas  variables  en  el  modelo,  por  la  forma  funcional  pueden  ser 
dos  modelos  no  anidados.  Por  ejemplo,  considere  el  modelo: 

Modelo  E:  7,-  =  In  Z2,  +  /S3  In  Z3,  +  w, 

Los  modelos  D  y  E  son  no  anidados,  pues  no  se  puede  derivar  uno  como  caso  especial  del  otro. 

Como  ya  vimos  las  pruebas  de  modelos  anidados  (pruebas  t  y  F),  en  la  siguiente  seccion  ana- 
lizaremos  algunas  pruebas  para  los  modelos  no  anidados,  antes  llamados  errores  de  especifica¬ 
cion  incorrecta  del  modelo. 


32  De  manera  mas  general,  es  posible  utilizar  la  prueba  de  la  razon  de  verosimilitud  o  la  de  Wald,  o  bien  la 
prueba  del  multiplicador  de  Lagrange,  que  analizamos  brevemente  en  el  capftulo  8. 
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13.8  Pruebas  de  hipotesis  no  anidadas 

De  acuerdo  con  Harvey,33  existen  dos  metodos  para  probar  hipotesis  no  anidadas:  1)  el  metodo 
de  discriminacion,  en  donde  dados  dos  o  mas  modelos  rivales,  uno  elige  un  modelo  con  base 
en  criterios  de  bondad  de  ajuste,  y  2)  el  metodo  de  discernimiento  (en  la  terminologia  de  este 
texto),  en  donde  al  investigar  un  modelo,  se  toma  en  cuenta  la  informacion  proporcionada  por 
otros  modelos.  Estudiaremos  brevemente  ambos  metodos. 

Metodo  de  discriminacion 

Considere  los  modelos  C  y  D  anteriores.  Como  ambos  tienen  la  misma  variable  dependiente,  po- 
demos  elegir  entre  dos  (o  mas)  modelos  con  base  en  algun  criterio  de  bondad  de  ajuste,  como  R2  o 
R2  ajustada,  ya  analizado.  Pero  tenga  en  cuenta  que  al  comparar  dos  o  mas  modelos,  la  regresada 
debe  ser  la  misma.  Ademas  de  estos  criterios,  hay  otros  tambien  comunes.  Entre  ellos  estan  el 
criterio  de  informacion  de  Akaike  (CIA),  el  criterio  de  informacion  de  Schwarz  (CIS)  y 
el  criterio  Cp  de  Mallows.  Los  estudiaremos  en  la  seccion  13.9.  El  software  mas  moderno  de 
estadistica  contiene  uno  o  mas  de  tales  criterios  intercalados  en  sus  rutinas  de  regresion.  En  la 
ultima  seccion  de  este  capitulo  ilustraremos  los  criterios  anteriores  con  un  ejemplo  ampliado. 
Con  base  en  uno  o  mas  de  tales  criterios  seleccionamos  finalmente  un  modelo  con  la  maxima  R2, 
o  el  valor  mas  bajo  del  CIA  o  del  CIS,  etcetera. 

Metodo  de  discernimiento 

La  prueba  F  no  anidada  o  la  prueba  F  incluyente 

Considere  los  modelos  C  y  D  presentados  en  la  seccion  3.7.  (',C6mo  elegir  entre  ambos  modelos? 
Para  este  proposito,  suponga  que  estimamos  el  siguiente  modelo  anidado  o  hibrido : 

Modelo  F:  Yt  =  A|  +  X2X2 +  XjXy  +  A.4Z2;  +  A 5 Z3,  +  zq 

Observe  que  el  modelo  F  anida  o  incluyc  a  los  modelos  C  y  D.  Pero  note  que  C  no  esta  anidado 
en  D,  y  que  este  no  esta  anidado  en  C,  por  lo  que  no  son  modelos  anidados. 

Ahora  bien,  si  el  modelo  C  es  correcto,  X4  —  X5  =  0,  en  tanto  que  D  es  correcto  si  X  —  A.  3  = 
0.  Esta  prueba  se  efectua  mediante  la  prueba  F  usual,  de  aqui  que  se  le  conozca  como  prueba  F 
no  anidada. 

Sin  embargo,  surgen  problemas  con  este  procedimiento  de  prueba.  En  primer  lugar,  si  las 
X  y  las  Z  estan  demasiado  correlacionadas,  entonces  — como  vimos  en  el  capitulo  de  multi- 
colinealidad —  es  muy  probable  que  una  o  mas  de  las  X  sean  en  lo  individual  estadisticamente 
insignificantes,  aunque  con  base  en  la  prueba  F  podamos  rechazar  la  hipotesis  de  que  todos  los 
coeficientes  de  pendientes  sean  simultaneamente  nulos.  En  este  caso,  no  hay  forma  de  decidir  si 
el  modelo  C  o  el  D  es  el  correcto.  En  segundo  lugar,  existe  otro  problema.  Suponga  que  elegi- 
mos  el  modelo  C  como  hipotesis  de  referenda  o  modelo,  y  descubrimos  que  todos  sus  coeficien¬ 
tes  son  significativos.  Ahora  agregamos  Z2  o  Z3,  o  ambas,  al  modelo  y  tenemos  que,  al  utilizar 
la  prueba  F,  su  contribucion  incremental  a  la  suma  de  cuadrados  explicada  (SCE)  es  estadistica¬ 
mente  insignificante.  Por  tanto,  elegimos  el  modelo  C. 

Pero  suponga  que  elegimos  el  modelo  D  como  referenda  y  encontramos  que  todos  sus 
coeficientes  son  estadisticamente  significativos.  Pero  cuando  agregamos  X2  o  Xy  o  ambas,  a  este 
modelo,  de  nuevo  observamos  que,  con  la  prueba  F,  su  contribucion  incremental  a  la  SCE  es 
insignificante.  En  consecuencia,  habriamos  elegido  el  modelo  D  como  el  correcto.  Por  tanto,  “la 
eleccion  de  la  hipotesis  de  referenda  puede  determinar  el  resultado  de  la  eleccion  del  modelo”,34 
sobre  todo  si  hay  una  gran  multicolinealidad  en  las  regresoras  rivales.  Por  ultimo,  el  modelo  F, 
artificialmente  anidado,  quiza  no  tenga  ningun  significado  economico. 


33  Andrew  Harvey,  The  Econometric  Analysis  of  Time  Series,  2a.  ed..  The  MIT  Press,  Cambridge,  Massachusetts, 
1990,  cap.  5. 

34  Thomas  B.  Fomby,  R.  Carter  Hill  y  Stanley  R.  Johnson,  Advanced  Econometric  Methods,  Springer  Verlag, 
Nueva  York,  1984,  p.  416. 
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EJEMPLO  13.3 

Un  ejemplo  ilustra- 
tivo:  El  modelo 
St.  Louis 


Para  determinar  si  los  cambios  en  el  PIB  nominal  se  explican  por  las  variaciones  en  la  oferta  de 
dinero  (monetarismo)  o  por  los  cambios  en  el  gasto  gubernamental  (keynesianismo),  conside- 
ramos  los  siguientes  modelos: 

Yt  =  a  +  PoMt  +  fi-\  Mf_!  +  /J2  A4t_2  +  /3sMt-3  +  >84 ^4 1_4  +  u-\t 
4 

=  cx  4-  ^  M[—j  4-  u-\  t  (13.8.1) 

1=0 

Yt  =  y  +  X0  Et  +  Xi  E  f_T  4-  A  2  £  t_2  4-  A3  £  f_3  4-  A4  £  f__4  4-  U2t 
4 

=  Y  +  A;  E  t-i  +  U2t  (13.8.2) 

/= 0 

donde  Yt  =  tasa  de  crecimiento  en  el  PIB  nominal  para  el  tiempo  t 

Mt  =  tasa  de  crecimiento  en  la  oferta  de  dinero  (version  M 1)  en  el  tiempo  t 
E t  =  tasa  de  crecimiento  con  una  plena  o  alta  utilizacion  del  gasto  gubernamental  en 
el  tiempo  t 

Por  cierto,  observe  que  (1  3.8.1 )  y  (1  3.8.2)  son  ejemplos  de  modelos  de  rezago  distribuido,  tema 
que  analizaremos  a  profundidad  en  el  capftulo  1  7.  Por  el  momento,  simplemente  note  que  el 
efecto  de  una  unidad  de  cambio  en  la  oferta  de  dinero  o  en  el  gasto  gubernamental  sobre  el  PIB 
se  distribuye  a  lo  largo  del  tiempo  y  no  es  instantaneo. 

Como  serfa  diffcil,  a  priori,  decidir  entre  los  dos  modelos  rivales,  mezclaremos  ambos  como 
se  muestra  a  continuacion: 

4  4 

Yt  =  constante  +  ft  M t-i  +  ^  A,-  £  f_(-  +  u3t  (i  3.8.3) 

/= 0  /= 0 

Este  modelo  anidado  es  una  forma  en  la  que  se  ha  expresado  y  estimado  el  famoso  modelo  (del 
Banco  de  la  Reserva  Federal)  de  St.  Louis,  un  banco  de  la  escuela  monetarista.  Sus  resultados  para 
el  periodo  del  primer  trimestre  de  1 953  al  cuarto  de  1 976  para  Estados  Unidos  son  los  siguientes 
(las  razones  t  estan  entre  parentesis):35 


Coeficiente 

Estimado 

Coeficiente 

Estimado 

/So 

0.40 

(2.96) 

0.08 

(2.26) 

/Si 

0.41 

(5.26) 

Ai 

0.06 

(2.52) 

/S2 

0.25 

(2.14) 

A2 

0.00 

(0.02) 

/S3 

0.06 

(0.71) 

A3 

-0.06 

(-2.20) 

ftt 

-0.05 

(-0.37) 

a4 

-0.07 

(-1.83) 

4 

Ea 

1.06 

(5.59) 

4 

E*' 

0.03 

(0.40) 

;=o  /= 0 


R2  =  0.40 
d=  1.78 


,;Que  indican  estos  resultados  en  lo  que  concierne  a  la  superioridad  de  un  modelo  respecto  del 
otro?  Si  nos  atenemos  al  efecto  acumulativo  de  una  unidad  de  cambio  en  M  y  £  sobre  Y,  obtene- 
mos  respectivamente  Yd=o  Pi  =  1  -06  y  5Zf=o  ft  =  0.03,  con  el  primero  estadfsticamente  signifi¬ 
cative  y  el  ultimo  no.  Esta  comparacion  apoyarfa  la  afirmacion  monetarista  de  que  los  cambios 
en  la  oferta  de  dinero  son  los  que  determinan  las  variaciones  en  el  PIB  (nominal).  Se  deja  como 
ejercicio  para  el  lector  evaluar  en  forma  crftica  esta  afirmacion. 


3SVease  Keith  M.  Carlson,  "Does  the  St.  Louis  Equation  Now  Believe  in  Fiscal  Policy?",  Review,  Federal  Reserve 
Bank  of  St.  Louis,  vol.  60,  num.  2,  febrero  de  1 978,  p.  1  7,  tabla  IV. 
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La  prueba  J  de  Dav  ids  on-  M a  c  K  i  n  n  o  n 36 

En  vista  de  los  problemas  que  acabamos  de  mencionar  en  el  procedimiento  de  prueba  F  no 
anidado,  se  han  sugerido  otras  opciones.  Una  es  la  prueba  J  de  Davidson-MacKinnon.  Para 
ilustrarla,  suponga  que  deseamos  comparar  la  hipotesis  o  modelo  C  con  la  hipotesis  o  modelo  D. 
La  prueba  /  precede  de  la  siguiente  forma: 

1 .  Estimamos  el  modelo  D  y  de  el  obtenemos  los  valores  Y  estimados,  fP. 

2.  Agregamos  el  valor  Y pronosticado  en  el  paso  1  como  una  regresora  adicional  al  modelo  C 
y  estimamos  el  siguiente  modelo: 

Yj  =  oi\  ~Y  ^2X21  4“  0:3^3 ;  -f  ol4  Y  d  -j-  Hi  (1 3.8.5) 

donde  los  valores  YP  se  obtienen  del  paso  1.  Este  modelo  es  un  ejemplo  del  principio  de  inclu¬ 
sion,  como  en  la  metodologia  de  Hendry. 

3.  Con  la  prueba  t,  se  prueba  la  hipotesis  de  que  a4  —  0. 

4.  Si  no  se  rechaza  la  hipotesis  de  que  oq  =  0,  podemos  aceptar  (es  decir,  no  se  rechaza)  el 
modelo  C  como  el  verdadero  modelo,  pues  YP,  incluida  en  ( 13.8.5),  que  representa  la  influencia 
de  las  variables  no  consideradas  en  el  modelo  C,  no  tiene  un  poder  explicativo  adicional  mas 
alia  de  lo  que  contribuye  el  modelo  C.  En  otras  palabras,  el  modelo  C  incluye  al  modelo  D,  en  el 
sentido  de  que  este  ultimo  no  contiene  ninguna  informacion  adicional  que  mejore  el  desempeno 
de  C.  Por  el  mismo  tenor,  si  se  rechaza  la  hipotesis  nula,  el  modelo  C  no  puede  ser  el  verdadero 
(ipor  que?). 

5.  Ahora  cambiamos  los  papeles  de  las  hipotesis,  o  de  los  modelos  C  y  D.  Estimamos  primero 
el  modelo  C,  con  los  valores  Y estimados  de  este  modelo  como  regresoras  en  (13.8.5),  repetimos  el 
paso  4  y  decidimos  si  preferimos  o  no  el  modelo  D  respecto  del  C.  De  manera  mas  especifica, 
estimamos  el  siguiente  modelo: 

Yi  =  Pi  +  P2Z2,  +  foZy  +  pAYf  +  Ui  (1 3.8.6) 

donde  Yf  son  los  valores  Y estimados  del  modelo  C.  Ahora  probamos  la  hipotesis  de  que  ft4  —  0. 
Si  no  se  rechaza  esta  hipotesis,  elegimos  el  modelo  D  en  vez  del  C.  Si  se  rechaza  la  hipotesis  de 
que  p4  —  0,  entonces  preferiremos  C  en  vez  de  D,  pues  este  ultimo  no  tiene  un  mejor  desempeno 
que  C. 

Aunque  resulta  intuitivamente  llamativa,  la  prueba  J  presenta  algunos  problemas.  Como  las 
pruebas  dadas  en  (13.8.5)  y  (13.8.6)  se  realizan  de  manera  independiente,  tenemos  los  siguientes 
resultados  probables: 


Hipotesis:  a4  =  0 

Hipotesis:  /?4  =  0  No  se  rechaza  Se  rechaza 

No  se  rechaza  Se  aceptan  C  y  D  Se  acepta  D,  se  rechaza  C 

Se  rechaza  Se  acepta  C,  se  rechaza  D  Se  rechazan  C  y  D 


Como  muestra  la  tabla,  no  podremos  dar  una  respuesta  contundente  si  el  procedimiento  de  prueba 
J  conduce  a  la  aceptacion  o  rechazo  de  ambos  modelos.  En  caso  de  que  ambos  se  rechacen,  nin- 
gun  modelo  explica  el  comportamiento  de  Y.  De  igual  forma,  si  ambos  se  aceptan,  como  observa 
Kmenta,  “los  datos  al  parecer  no  son  lo  bastante  ricos  para  discriminar  entre  las  dos  hipotesis 
[modelos]”.37 


36  R.  Davidson  y  J.G.  MacKinnon,  "Several  Tests  for  Model  Specification  in  the  Presence  of  Alternative  Hypo¬ 
theses",  Econometrica,  vol.  49,  1981,  pp.  781-793. 

37  Jan  Kmenta,  op.  cit.,  p.  597. 
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Otro  problema  con  la  prueba  J  es  que  cuando  se  utiliza  el  estadistico  t  para  probar  la  sig¬ 
nificance  de  la  variable  Y  estimada  en  los  modelos  (13.8.5)  y  (13.8.6),  el  estadistico  t  tiene  la 
distribution  normal  estandar  solo  de  manera  asintotica,  es  decir,  para  muestras  grandes.  Por 
consiguiente,  la  prueba  J  quiza  no  sea  muy  poderosa  (en  el  sentido  estadistico)  para  muestras 
pequenas,  pues  tiende  a  rechazar  la  hipotesis  o  el  modelo  verdadero  con  una  frecuencia  mayor 
de  la  que  deberia. 


EJEMPLO  13.4 

Gasto  de  consumo 
personal  e  ingreso 
personal  disponible 

Modelo  B:  GCPPt  =  fa  +  +  faCCPPt^  +  ut  (13.8.8) 

El  modelo  A  establece  que  el  GCPP  depende  del  IPDP  en  el  periodo  actual  y  previo;  este  modelo 
es  un  ejemplo  de  modelo  de  rezago  distribuido  (vease  el  capftulo  1  7).  El  modelo  B  postula 
que  el  GCPP  depende  del  IPDP  actual  y  del  GCPP  del  periodo  anterior;  este  modelo  representa 
el  modelo  autorregresivo  (vease  el  capftulo  1  7).  La  razon  para  introducir  el  valor  rezagado  del 
GCPP  en  este  modelo  es  reflejar  la  inercia  o  persistencia  del  habito. 

Los  resultados  de  estimar  estos  modelos  por  separado  fueron  los  siguientes: 

Modelo  A:  GCPPt  = -606.6347  +  0.61  70  IPDPf  4-  0.3530  IPDPt_, 

t=  (-3.8334)  (2.5706)  (1.4377)  (13.8.9) 

R2  =  0.9983  d=  0.2161 

Modelo  B:  GCPPt  =  76.8947  +  0.2074  IPDPt+  0.81 04  GCPPt-i 

t=  (0.7256)  (2.6734)  (9.7343)  (13.8.10) 

R2  =  0.9996  d=  0.9732 


Para  ilustrar  la  prueba  j,  considere  los  datos  de  la  tabla  13.3,  la  cual  proporciona  el  gasto  de 
consumo  personal  per  capita  (GCPP)  y  el  ingreso  personal  disponible  per  capita  (IPDP),  ambos 
en  dolares  de  2008,  en  Estados  Unidos  de  1970  a  2005.  Ahora  considere  los  siguientes  mode¬ 
los  rivales: 

Modelo  A:  GCPPt  =  on  +  o^lPDPt  +  a3lPDPt_i  +  ut  (13.8.7) 


TABLA  13.3 

Gasto  de  consumo 
personal  per  capita 
(GCPP)  e  ingreso  per¬ 
sonal  disponible  per  ca¬ 
pita  (IPDP)  en  Estados 
Unidos,  1970-2005 

Fuente:  Economic  Report  of  the 
President ,  2007. 


Ano 

GCPP 

IPDP 

Ano 

GCPP 

IPDP 

1970 

3  162 

3  587 

1988 

13  685 

15  297 

1971 

3  379 

3  860 

1989 

14  546 

16  257 

1972 

3  671 

4  140 

1990 

15  349 

17  131 

1973 

4  022 

4  616 

1991 

15  722 

17  609 

1974 

4  364 

5  010 

1992 

16  485 

18  494 

1975 

4  789 

5  498 

1993 

17  204 

18  872 

1976 

5  282 

5  972 

1994 

18  004 

19  555 

1977 

5  804 

6  517 

1995 

18  665 

20  287 

1978 

6  417 

7  224 

1996 

19  490 

21  091 

1979 

7  073 

7  967 

1997 

20  323 

21  940 

1980 

7  716 

8  822 

1998 

21  291 

23  161 

1981 

8  439 

9  765 

1999 

22  491 

23  968 

1982 

8  945 

10  426 

2000 

23  862 

25  472 

1983 

9  775 

11  131 

2001 

24  722 

26  235 

1984 

10  589 

12  319 

2002 

25  501 

27  164 

1985 

11  406 

13  037 

2003 

26  463 

28  039 

1986 

12  048 

13  649 

2004 

27  937 

29  536 

1987 

12  766 

14  241 

2005 

29  468 

30  458 

(i continua ) 
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EJEMPLO  13.4 

(continuation) 


Si  se  tuviese  que  elegir  entre  estos  dos  modelos  con  base  en  el  metodo  de  discriminacion, 
segun  el  criterio  R2,  quiza  se  elegirfa  el  modelo  B  (1  3.8.10)  porque  es  un  poco  mas  alto  que  el  A 
(1  3.8.9).  Ademas,  en  el  modelo  B  (1  3.8.10)  ambas  variables  son  estadfsticamente  significativas 
en  lo  individual,  en  tanto  que  en  el  A  (1  3.8.9)  solo  el  IPDP  actual  es  estadfsticamente  significativo 
(aunque  puede  haber  un  problema  de  colinealidad).  Sin  embargo,  para  efectos  predictivos  no 
existe  mucha  diferencia  entre  los  dos  valores  estimados  de  R2. 

Para  aplicar  la  prueba  /,  suponga  que  el  modelo  A  es  la  hipotesis  nula,  es  decir,  el  modelo 
mantenido,  y  el  modelo  B  es  la  hipotesis  alternativa.  Siguiendo  los  pasos  de  la  prueba  /  analiza- 
dos  antes,  se  utilizan  los  valores  estimados  del  CCPP  del  modelo  (1  3.8.1 0)  como  una  regresora 
incondicional  en  el  modelo  A,  con  el  siguiente  resultado: 

CCPP,  =-  35.17  +  0.2762  IPDPt  -  0.5141  IPDPt_,  +  1.2351  CCPPf 

f  =  (—0.43)  (2.60)  (-4.05)  (12.06)  (13.8.11) 

R2=1.00  d=  1.5205 

donde  GCPPf  en  el  miembro  derecho  de  (1  3.8.1 1)  representa  los  valores  estimados  GCPP  del 
modelo  B  (13.8.10).  Como  el  coeficiente  de  esta  variable  es  estadfsticamente  significativo  con 
un  estadfstico  t  muy  alto  de  1 2.06,  segun  el  procedimiento  de  la  prueba  /  se  tiene  que  rechazar 
el  modelo  A  y  aceptar  el  B. 

Ahora  supondremos  que  el  modelo  B  es  la  hipotesis  mantenida  y  que  el  A  es  la  alternativa, 
exactamente  con  el  mismo  procedimiento  que  antes,  y  obtenemos  los  siguientes  resultados: 

GCPPt  =-  823.7  +  1.4309  IPDPt  +  1 .0009  GCPPf_i  -  1 .4563  GCPP? 

t=  (-3.45)  (4.64)  (12.06)  (-4.05)  (13.8.12) 

R2  =  1 .00  d=  1.5205 

donde  GCPPf  en  el  miembro  derecho  de  la  ecuacion  (1  3.8.1 2)  representa  losj/alores  estimados 
de  GCPP  del  modelo  A  original  (1  3.8.9).  En  esta  regresion  el  coeficiente  de  GCPP(*  tambien  es 
estadfsticamente  significativo,  con  un  estadfstico  t  de  —4.05.  Este  resultado  indica  que  ahora 
debemos  preferir  el  modelo  B  en  vez  del  A. 

Todo  lo  anterior  muestra  que  ningun  modelo  es  particularmente  util  para  explicar  el  com- 
portamiento  del  gasto  de  consumo  personal  per  capita  en  Estados  Unidos  de  1970  a  2005.  Por 
supuesto,  solo  consideramos  dos  modelos  rivales.  En  realidad,  bien  puede  haber  mas  de  dos  mo¬ 
delos.  El  procedimiento  de  la  prueba  ]  puede  ampliarse  a  la  comparacion  de  multiples  modelos, 
aunque  asf  el  analisis  se  complica  con  facilidad. 

Este  ejemplo  muestra  de  forma  muy  vfvida  por  que  el  MCRL  supone  que  el  modelo  de  re¬ 
gresion  del  analisis  esta  especificado  de  modo  correcto.  Obvio,  resulta  crucial,  al  desarrollar  un 
modelo,  poner  especial  atencion  al  fenomeno  del  cual  se  esta  haciendo  el  modelo. 


Otras  pruebas  para  la  selection  del  modelo 

La  prueba  Jrecien  estudiada  solo  es  una  de  un  grupo  para  seleccionar  modelos:  existe  la  prueba 
Cox,  la  prueba  JA,  la  prueba  P,  la  prueba  de  inclusion  Mizon-Richard  y  variantes  de  ellas. 
Resulta  obvio  que  no  se  espera  que  en  este  texto  estudiemos  estas  pruebas  tan  especializadas, 
pero  el  lector  puede  consultar  las  referencias  de  las  notas.38 


38Vease  tambien  Badi  H.  Baltagi,  Econometrics,  Springer,  Nueva  York,  1998,  pp.  209-222. 
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13.9  Criterios  para  la  seleccion  de  modelos 


En  esta  section  estudiaremos  diversos  criterios  para  elegir  entre  modelos  rivales  y/o  comparar 
con  propositos  de  pronostico.  Aqui  distinguimos  entre  pronostico  dentro  de  la  muestra  y  pro¬ 
nostico  fuera  de  la  muestra.  El  primero  sefiala  sobre  todo  como  elegir  el  modelo  que  se  ajusta 
a  los  datos  de  determinada  muestra.  El  pronostico  fuera  de  la  muestra  se  refiere  a  la  forma  de 
determinar  como  un  modelo  ajustado  pronostica  valores  futures  de  la  regresada,  dados  los  valo- 
res  de  las  regresoras. 

Hay  diversos  criterios  para  este  fin.  En  particular,  examinaremos  los  siguientes  criterios: 
1)  R2,  2)  R2  ajustada  (  =  R2),  3)  criterio  de  information  Akaike  (CIA),  4)  criterio  de  information 
Schwarz  (CIS),  5)  criterio  Cp  de  Mallows  y  6)  pronostico  x2  (ji  cuadrada).  Todos  estos  criterios 
pretenden  reducir  la  suma  de  cuadrados  residual  (SCR)  (o  incrementar  el  valor  R2).  Sin  embargo, 
salvo  por  el  primer  criterio,  los  demas  imponen  un  castigo  por  incluir  un  numero  creciente  de 
regresoras.  Por  tanto,  existe  un  dilema  entre  la  bondad  del  ajuste  del  modelo  y  su  complejidad 
(juzgada  de  acuerdo  con  el  numero  de  regresoras). 


El  criterio  R2 

Sabemos  que  una  medida  de  la  bondad  del  ajuste  de  un  modelo  de  regresion  es  R2,  la  cual  se 
define  como: 


SCE  _ i  SCR 
SCT  “  ~~  SCT 


(13.9.1) 


Asi  definida,  R2  necesariamente  esta  entre  0  y  1.  Mientras  mas  cerca  este  de  1,  mejor  sera  el 
ajuste.  Pero  surgen  varios  problemas  con  R2.  En  primer  lugar,  mide  la  bondad  de  ajuste  dentro 
de  la  muestra ,  en  el  sentido  de  conocer  la  cercania  entre  un  valor  Y  estimado  y  su  valor  real  en  la 
muestra  dada.  No  hay  garantia  de  que  pronosticara  bien  las  observaciones fuera  de  la  muestra.  En 
segundo  lugar,  al  comparar  dos  o  mas  valores  de  R2,  la  variable  dependiente,  o  regresada,  debe 
ser  la  misma.  En  tercer  lugar,  y  lo  mas  importante,  es  que  una  R2  no  puede  disminuir  cuando  se 
agregan  mas  variables  al  modelo.  Por  consiguiente,  existe  la  tentacion  de  apostar  por  “maximizar 
R2”  simplemente  anadiendo  mas  variables.  Por  supuesto  que  al  agregar  variables  se  incremen- 
ta  R2,  pero  tambien  aumenta  la  varianza  del  error  de  prediction. 


R2  ajustada 

Debido  a  la  inconveniencia  de  aumentar  regresoras  para  incrementar  el  valor  de  R 2,  Henry  Theil 
desarrollo  la  R2  ajustada,  denotada  por  R2.  la  cual  estudiamos  en  el  capitulo  7.  Recuerde  que 


SCE/(«  -  k) 
SCT /(«  -  1) 


1  -(1  -  R2) 


n  —  1 
n  —  k 


(13.9.2) 


Como  se  ve  en  esta  formula,  R2  <  R2.  lo  cual  muestra  como  la  R2  ajustada  penaliza  cuando  se 
agregan  mas  regresoras.  Como  observamos  en  el  capitulo  8,  a  diferencia  de  R2,  la  R2  ajustada 
se  incrementa  solo  si  el  valor  absoluto  de  t  de  la  variable  anadida  es  mayor  que  1 .  Asi,  para  com¬ 
parar,  R2  es  una  mejor  medida  que  R2.  Pero  una  vez  mas,  tenga  en  cuenta  que  la  regresada  debe 
ser  la  misma  para  que  la  comparacion  sea  valida. 
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Criterio  de  informacion  Akaike  (CIA) 

La  idea  de  imponer  una  penalizacion  por  anadir  regresoras  al  modelo  se  desarrollo  mas  en  el 
criterio  CIA,  el  cual  se  define  como: 


CIA  =  e2k/ 


Yu2 

n  i 


=  e2  k/n 


SCR 


(13.9.B) 


donde  k  es  el  numero  de  regresoras  (inclusive  el  intercepto)  y  n  es  el  niimero  de  observaciones. 
Por  conveniencia  matematica  (13.9.3)  se  expresa  como 


In  CIA  = 


(13.9.4) 


donde  In  CIA  =  el  logaritmo  natural  de  CIA  y  2 k/n  —  factor  de  penalizacion.  Algunos  libros  de 
texto  y  paquetes  de  software  definen  al  CIA  solo  en  terminos  de  su  transformada  logarltmica, 
por  lo  que  no  es  necesario  escribir  In  antes  de  CIA.  Como  se  ve  en  la  formula,  CIA  impone  una 
mayor  penalizacion  que  R2  por  anadir  regresoras.  Al  comparar  dos  o  mas  modelos,  se  preferira  el 
que  tenga  el  menor  valor  CIA.  Una  ventaja  del  CIA  es  que  resulta  util  no  solo  para  el  desempeno 
de  la  prediccion  dentro  de  la  muestra,  sino  tambien  para  el  de  la  prediccion  fuera  de  la  mues- 
tra  de  un  modelo  de  regresion.  Asimismo,  es  util  para  los  modelos  anidados  y  no  anidados.  Tam¬ 
bien  sirve  para  determinar  la  longitud  del  rezago  en  el  modelo  AR(p). 


Criterio  de  informacion  Schwarz  (CIS) 

Con  un  espiritu  similar  al  CIA,  el  criterio  CIS  se  define  como 


CIS  =  nk/n  '^U-  =  nk >n (i 3.9.5) 
n  n 

o,  en  forma  logaritmica: 

In  CIS  =  -  In  n  +  In  ( - (13.9.6) 

n  \  n  J 


donde  [(k/n)  In  n ]  es  el  factor  de  penalizacion.  CIS  impone  una  penalizacion  mayor  que  CIA, 
como  resulta  obvio  al  comparar  (13.9.6)  con  (13.9.4).  Al  igual  que  en  CIA,  mientras  mas 
pequeno  sea  el  valor  de  CIS,  mejor  sera  el  modelo.  De  nuevo,  al  igual  que  en  CIA,  CIS  sirve 
para  comparar  el  desempeno  del  pronostico  dentro  de  la  muestra  y  fuera  de  la  muestra  de  un 
modelo. 


Criterio  Cp  de  Mallows 

Suponga  que  tenemos  un  modelo  con  k  regresoras,  inclusive  el  intercepto.  Sea  a2  el  estimador  de 
la  verdadera  a2,  como  siempre.  Pero  suponga  tambien  que  solo  elegimos  p  regresoras  (p  <  k)  y 
obtuvimos  la  SCR  de  la  regresion  con  esas  p  regresoras.  Sea  SCR/;  la  suma  de  cuadrado  residual 
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obtenida  con  las  p  regresoras.  Ahora  bien,  C.P.  Mallows  elaboro  el  siguiente  criterio  para  selec- 
cionar  modelos,  conocido  como  criterio  Cp : 


CP  = 


SCR„ 


(n  -  2p) 


(13.9.7) 


donde  n  es  el  numero  de  observaciones. 

Sabemos  que  E(a2)  es  un  estimador  insesgado  de  la  verdadera  a2.  Ahora  bien,  si  el  modelo 
con  p  regresoras  es  adecuado  en  lo  que  se  refiere  a  que  no  muestra  una  carencia  de  ajuste,  se 
puede  demostrar39  que  E( SCRp)  —  (n  —  p)a2.  En  consecuencia,  es  verdad  aproximadamente 
que 

E(Cp)  «  ~  P2)a~  -{n-2p)^p  (1 3.9.8) 

a1 

A1  elegir  un  modelo  de  acuerdo  con  el  criterio  Cp,  se  debe  buscar  un  modelo  con  un  valor  bajo 
de  Cp,  aproximadamente  igual  que  p.  En  otras  palabras,  si  seguimos  el  principio  de  parsimonia, 
elegiremos  un  modelo  con p  regresoras  (p<k )  que  proporcione  un  ajuste  adecuado  a  los  datos. 

En  la  practica,  se  suele  graficar  Cp  calculado  de  (13.9.7)  en  funcion  de  p.  Un  modelo  “ade¬ 
cuado”  se  mostrara  como  un  punto  cercano  a  la  linea  Cp  —  p,  como  se  observa  en  la  figura  13.3, 
en  la  cual  se  ve  que  el  modelo  A  es  preferible  al  B,  pues  esta  mas  cerca  a  la  linea  Cp—p  que 
el  B. 


Advertencia  sobre  los  criterios  de  seleccion  de  modelos 

Estudiamos  varios  criterios  para  seleccionar  modelos.  Pero  estos  criterios  se  deben  considerar 
complementos  de  las  diversas  pruebas  de  espedficacion  vistas  en  este  capitulo.  Algunos  criterios 
analizados  son  meramente  descriptivos  y  pueden  carecer  de  propiedades  teoricas  firmes.  Incluso 
a  algunos  se  les  puede  imputar  el  cargo  de  recurrir  a  la  mineria  de  datos.  Sin  embargo,  son  tan 
comunes  que  el  lector  debe  conocerlos.  Ninguno  de  estos  criterios  es  superior  a  los  demas.40  El 


39  Norman  D.  Draper  y  Harry  Smith,  Applied  Regression  Analysis,  3a.  ed.,  John  Wiley  &  Sons,  Nueva  York, 
1998,  p.  332.  Consulte  este  libro  para  algunos  ejemplos  resueltos  de  Cp. 

40  Hay  un  analisis  util  sobre  el  tema  en  Francis  X.  Diebold,  Elements  of  Forecasting,  2a.  ed.,  South  Western, 
2001,  pp.  83-89.  Respecto  del  balance,  Diebold  recomienda  el  criterio  CIS. 
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software  mas  moderno  ahora  incluye  los  criterios  R2,  R2  ajustada,  CIA  y  CIS.  El  criterio  de  la  Cp 
de  Mallows  todavla  no  suele  incluirse,  aunque  se  obtiene  con  facilidad  a  partir  de  su  definicion. 

Pronostico  ji  cuadrada  (x2) 

Suponga  que  tenemos  un  modelo  de  regresion  basado  en  n  observaciones  y  ademas  deseamos 
pronosticar  con  el  los  valores  (medios)  de  la  regresada  para  t  observaciones  adicionales.  Siempre 
es  aconsejable  guardar  parte  de  los  datos  muestrales  para  ver  la  forma  en  que  el  modelo  estimado 
pronostica  las  observaciones  no  incluidas  en  la  muestra,  el  periodo  posmuestra: 

Ahora  el  pronostico  y2  se  define  como  sigue: 

Y1  "+'  ,72 

Pronostico,  x2  =  tl  '  (13.9.9) 

CT" 

donde  u,  es  el  error  de  pronostico  para  el  periodo  i  ( =  n  +  1 ,  n  +  2, . . . ,  +  n  +  i),  con  los  parame- 
tros  obtenidos  de  la  regresion  ajustada  y  los  valores  de  las  regresoras  en  el  periodo  posmuestra. 
<t2  es  el  estimador  usual  de  MCO  para  a 2  basada  en  la  regresion  ajustada. 

Si  nuestra  hipotesis  es  que  los  valores  de  los  parametros  no  cambiaron  entre  los  periodos  de  la 
muestra  y  la  posmuestra,  podemos  demostrar  que  el  estadistico  de  (13.9.9)  sigue  la  distribucion 
ji  cuadrada  con  t  grados  de  libertad,  donde  t  es  el  numero  de  periodos  para  los  que  se  realizo  el 
pronostico.  Como  senalan  Charemza  y  Deadman,  la  prueba  del  pronostico  y1  tiene  un  poder  es¬ 
tadistico  debil,  lo  cual  significa  que  la  probabilidad  de  que  la  prueba  rechace  correctamente  una 
hipotesis  nula  falsa  es  baja  y  por  tanto  la  prueba  debe  utilizarse  mas  como  indicador  que  como 
prueba  definitiva.41 


13.10  Otros  temas  relacionados  con  la  creacion 
de  modelos  econometricos 


Como  senalamos  en  la  introduccion  de  este  capitulo,  el  tema  de  la  construccion  de  modelos  y  de 
las  pruebas  de  diagnostico  es  tan  amplio  y  complejo  que  hay  libros  especializados  al  respecto.  En 
la  seccion  anterior  vimos  en  forma  breve  algunos  temas  importantes  de  esta  area.  En  esta  seccion 
proseguimos  con  unos  cuantos  temas  que  a  los  investigadores  les  pueden  parecer  utiles  en  la 
practica.  En  particular,  estudiaremos  los  siguientes  temas:  1)  valores  atipicos,  apalancamientos 
e  influencia;  2)  ini'nimos  cuadrados  recursivos  y  3)  prueba  de  falla  de  prediccion  de  Chow. 
Necesariamente,  el  analisis  de  cada  uno  sera  sucinto. 

Valores  atipicos,  apalancamiento  e  influencia42 

Recuerde  que,  al  reducir  la  suma  de  cuadrado  residual  (SCR),  los  MCO  dan  igual  ponderacion  a 
cada  observacion  en  la  muestra.  Pero  cada  una  de  estas  quiza  no  tenga  igual  efecto  en  los  resul- 
tados  de  la  regresion  debido  a  la  presencia  de  tres  tipos  de  puntos  de  datos  especiales,  llamados 
valores  atipicos,  puntos  de  apalancamiento  y  puntos  de  influencia.  Es  importante  saber  lo  que 
son  y  como  influyen  en  el  analisis  de  regresion. 

En  el  contexto  de  la  regresion,  un  valor  atipico  puede  definirse  como  una  observacion  con 
un  “gran  residuo”.  Recuerde  que  u,  —  (Y,  —  Yt);  es  decir,  el  residuo  representa  la  diferencia 
(positiva  o  negativa)  entre  el  valor  real  de  la  regresada  y  su  valor  estimado  a  partir  del  modelo 
de  regresion. 


41  Wojciech  W.  Charemza  y  Derek  F.  Deadman,  New  Directions  in  Econometric  Practice:  A  General  to  Specific 
Modelling,  Cointegration  and  Vector  Autoregression,  2a.  ed.,  Edward  Elgar,  1997,  p.  30.  Vease  tambien  pp. 
250-252  para  sus  puntos  de  vista  sobre  diversos  criterios  en  la  seleccion  de  modelos. 

42  El  siguiente  analisis  recibio  la  influencia  de  Chandan  Mukherjee,  Howard  White  y  Marc  Wyuts,  Econome¬ 
trics  and  Data  Analysis  for  Developing  Countries,  Routledge,  Nueva  York,  1 998,  pp.  1  37-1 48. 
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FIGURA  13.4 


En  cada  inciso,  las  llneas  continuas  son  las  llneas  de  MCO  para  todos  los  datos,  y  las  discontinuas  son 
las  llneas  de  MCO  con  el  valor  atlpico,  denotado  por  un  ®,  mismo  que  se  omitio.  En  a),  el  valor  atlpico 
esta  cerca  del  valor  medio  de  X y  tiene  un  debil  apalancamiento  y  poca  influencia  sobre  los  coeficientes 
de  regresion.  En  b),  el  valor  atlpico  esta  lejos  del  valor  medio  de  Xy  tiene  un  fuerte  apalancamiento, 
as!  como  una  influencia  importante  en  los  coeficientes  de  regresion.  En  c),  el  valor  atlpico  tiene  un  gran 
apalancamiento  pero  poca  influencia  en  los  coeficientes  de  regresion  debido  a  que  esta  alineado  al  resto  de 
las  observaciones. 


Cuando  decimos  que  un  residuo  es  grande,  lo  comparamos  con  los  demas  residuos,  y  con  mucha 
frecuencia  ese  residuo  tan  grande  llama  la  atencion  de  inmediato  debido  a  su  enorme  distancia 
vertical  respecto  de  la  linea  de  regresion  estimada.  Observe  que  en  el  conjunto  de  datos  puede 
haber  mas  de  un  valor  atipico.  Ya  vimos  un  ejemplo  de  lo  anterior  en  el  ejercicio  11.22,  don- 
de  se  pidio  al  lector  hacer  la  regresion  del  cambio  porcentual  en  los  precios  de  acciones  (Y)  so¬ 
bre  el  cambio  porcentual  en  los  precios  al  consumidor  (X ),  con  una  muestra  de  20  paises.  Hay 
que  observar  que  Chile  era  un  valor  atipico. 

Decimos  que  un  dato  ejerce  apalancamiento  (grande)  si  esta  desproporcionadamente  dis- 
tante  de  la  mayor  parte  de  los  valores  de  una(s)  regresora(s).  /.Per  que  es  importante  un  punto 
de  apalancamiento?  Porque  es  capaz  de  empujar  la  linea  de  regresion  hacia  el  mismo,  lo  que 
distorsiona  la  pendiente  de  la  linea  de  regresion.  Si  esto  sucede,  este  punto  (dato)  se  denomina  de 
apalancamiento,  un  punto  de  influencia.  La  elimination  de  tales  puntos  de  datos  de  la  muestra 
afecta  de  manera  drastica  a  la  linea  de  regresion.  De  vuelta  al  ejercicio  1 1.22,  vera  que  si  hace  la 
regresion  Y  sobre  X,  incluso  la  observacion  para  Chile,  el  coeficiente  de  la  pendiente  es  positivo 
y  “estadisticamente  muy  significativo”.  Pero  si  desecha  la  observacion  de  Chile,  el  coeficiente  de 
la  pendiente  es  casi  nulo.  Por  tanto,  la  observacion  sobre  Chile  tiene  un  apalancamiento  y  es  una 
observacion  influyente. 

Para  aclarar  aun  mas  la  naturaleza  de  los  valores  atipicos  y  los  puntos  de  apalancamiento  e 
influencia,  observe  el  diagrama  de  la  figura  13.4,  el  cual  se  explica  por  si  mismo.43 

qComo  se  trabaja  con  tales  puntos  de  datos?,  /.solo  se  debe  eliminar  y  restringir  la  atencion  a 
los  puntos  de  datos  restantes?  De  acuerdo  con  Draper  y  Smith: 

El  rechazo  automatico  de  los  valores  atipicos  no  siempre  es  sensato.  A  veces  el  valor  atlpico  pro- 
porciona  information  que  otros  puntos  de  datos  no  suministran  debido  a  que  aquel  surge  de  una 
combination  rara  de  circunstancias  que  puede  revestir  vital  interes  y  requerir  mayor  investigacion, 
en  vez  de  rechazarlo.  Por  regia  general,  los  valores  atipicos  deben  rechazarse  solo  si  se  originan  por 
equivocos  de  registro,  observaciones  erroneas  o  un  mal  montaje  de  los  aparatos  [en  un  experimento 
fisico].  De  otro  modo,  se  requiere  una  investigacion  cuidadosa.44 


43  Adaptado  de  John  Fox,  Applied  Regression  Analysis,  Linear  Models,  and  Related  Methods,  Sage  Publications, 
California,  1997,  p.  268. 

44  Norman  R.  Draper  y  Harry  Smith,  op.  cit.,  p.  76. 
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,',€'011  que  pruebas  se  pueden  detectar  los  valores  atipicos  y  los  puntos  de  apalancamiento?  En 
la  bibliografia  hay  varias,  pero  no  las  estudiaremos  en  este  libro  porque  se  desvian  mucho  del 
tema.45  Los  paquetes  de  software  como  SHAZAM  y  MICR0F1T  cuentan  con  rutinas  para  detec¬ 
tar  los  valores  atipicos  y  los  puntos  de  apalancamiento  y  de  influencia. 


Mfnimos  cuadrados  recursivos 

En  el  capitulo  8  vimos  la  estabilidad  estructural  de  un  modelo  de  regresion  que  implicaba  datos 
de  series  de  tiempo,  y  mostramos  la  prueba  de  Chow  que  cumple  con  este  proposito.  De  manera 
especifica,  estudiamos  en  ese  capitulo  una  funcion  de  ahorro  simple  (el  ahorro  en  funcion  del 
ingreso)  en  Estados  Unidos  de  1970  a  2005.  Vimos  que  la  relation  entre  ahorro  e  ingreso  tal 
vez  cambio  alrededor  de  1982.  A1  conocer  el  punto  critico  estructural,  se  confirmo  mediante  la 
prueba  de  Chow. 

Pero,  ,',que  sucede  si  no  conocemos  el  punto  de  inflexion  estructural?  En  este  caso  se  utilizan 
los  minimos  cuadrados  recursivos  (MCR).  La  idea  basica  es  muy  sencilla:  mediante  la  regre¬ 
sion  de  ahorro-ingreso. 


Yt  —  P  i  +  PiX,  +  ut 

donde  Y  =  ahorro  y  X  —  ingreso  en  una  muestra  de  1970  a  2005.  (Vease  los  datos  de  la  tabla 

8.11.) 

Suponga  que  primero  utilizamos  los  datos  de  1970  a  1974  y  estimamos  la  funcion  ahorro, 
para  obtener  los  estimados  de  P\  y  Pi-  Luego  utilizamos  los  datos  de  1970  a  1975  y  de  nuevo 
estimamos  la  funcion  ahorro  para  obtener  los  estimados  de  los  dos  parametros.  Mas  adelante 
empleamos  los  datos  de  1970  a  1976  y  volvemos  a  estimar  el  modelo  de  ahorro.  Continuamos 
anadiendo  asi  puntos  de  datos  sobre  Y  y  X  hasta  agotar  la  muestra.  Como  es  de  imaginarse,  cada 
regresion  proporciona  un  nuevo  conjunto  de  estimaciones  para  P\  y  Pi.  Si  graficamos  los  valores 
estimados  de  estos  parametros  respecto  de  cada  iteration,  vemos  como  cambian  los  parame¬ 
tros  estimados.  Si  el  modelo  en  consideration  es  estructuralmente  estable,  las  variaciones  de  los 
valores  estimados  de  los  dos  parametros  seran  minimas  y  en  esencia  aleatorias.  No  obstante,  si 
los  valores  estimados  de  los  parametros  cambian  en  forma  significativa,  esto  indica  un  rompi- 
miento  estructural.  Por  tanto,  los  MCR  constituyen  una  herramienta  util  con  las  series  de  tiempo, 
pues  el  tiempo  esta  ordenado  cronologicamente.  Tambien  es  una  herramienta  util  de  diagnostico 
en  los  datos  transversales,  donde  los  datos  estan  ordenados  por  alguna  variable  de  “tamano” 
o  “escala”,  como  el  empleo  o  el  tamano  de  los  activos  de  una  empresa.  En  el  ejercicio  13.30  se 
pide  al  lector  aplicar  los  MCR  a  los  datos  de  ahorro  de  la  tabla  8.11. 

Los  paquetes  de  software  como  SHAZAM,  EViexvs  y  MICROFIT  ya  estiman  en  forma  ruti- 
naria  los  minimos  cuadrados  recursivos.  Asimismo,  los  MCR  tambien  generan  residuos  recursi¬ 
vos,  en  los  que  se  basan  diversas  pruebas  de  diagnostico.46 


Prueba  de  la  falla  de  prediccion  de  Chow 

Ya  analizamos  en  el  capitulo  8  la  estabilidad  estructural  de  Chow.  Demostro  que  esta  prueba 
se  puede  modificar  para  comprobar  el  poder  predictivo  de  un  modelo  de  regresion.  Veamos  de 
nuevo  la  regresion  de  ahorro-ingreso  en  Estados  Unidos  de  1970  a  1995. 


45  Aquf  se  mencionan  algunas  fuentes:  Alvin  C.  Rencher,  Linear  Models  in  Statistics,  John  Wiley  &  Sons,  Nueva 
York,  2000,  pp.  21 9-224;  A.C.  Atkinson,  Plots,  Transformations  and  Regressions:  An  Introduction  to  Graphical 
Methods  of  Diagnostic  Regression  Analysis,  Oxford  University  Press,  Nueva  York,  1 985,  cap.  3;  Ashis  Sen  y 
Muni  Srivastava,  Regression  Analysis:  Theory,  Methods,  and  Applications,  Springer- Verlag,  Nueva  York,  1990, 
cap.  8,  y  John  Fox,  op.  cit.,  cap.  1 1 . 

46  Para  mas  detalles,  vease  Jack  Johnston  y  John  DiNardo,  Econometric  Methods,  4a.  ed.,  McGraw-Hill,  Nueva 
York,  1997,  pp.  117-121. 
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Suponga  que  estimamos  la  regresion  ahorro-ingreso  de  1970  a  1981  y  obtenemos  jSi,7o-8i  y 
^2,70-81,  las  estimaciones  para  los  coeficientes  del  intercepto  y  de  la  pendiente  con  base  en  los 
datosde  1970a  1981.Ahora,  con  los  verdaderos  valores  del  ingreso  de  1982  a  1995  y  los  valores 
del  intercepto  y  la  pendiente  de  1970  a  1981,  se  predecimos  los  valores  de  ahorro  de  cada  ano  de 
1982  a  1995.  La  idea  es  que,  si  no  hay  un  cambio  estructural  significativo  en  los  valores  de  los 
parametros,  los  valores  de  ahorro  estimados  de  1982  a  1995,  con  base  en  las  estimaciones  de 
los  parametros  del  periodo  anterior,  no  deben  ser  muy  distintos  de  los  valores  reales  de  ahorro 
que  prevalecieron  en  el  ultimo  periodo  mencionado.  Por  supuesto,  si  hay  una  enorme  diferencia 
entre  los  valores  del  ahorro  pronosticados  y  los  reales  en  el  ultimo  periodo,  surgiran  dudas  res- 
pecto  de  la  estabilidad  de  la  relacion  entre  ahorro  e  ingresos  para  todo  el  periodo  de  los  datos. 

Mediante  la  prueba  F  se  demuestra  si  la  diferencia  entre  el  valor  del  ahorro  real  y  estimado  es 
pequena  o  grande,  de  la  siguiente  forma: 


(£  «?)/(«!  -  k) 


(13.10.1) 


donde  n\  —  numero  de  observaciones  en  el  primer  periodo  (1970-1981),  en  las  que  se  basa  la 
regresion  inicial,  «2  =  numero  de  observaciones  en  el  segundo  periodo  pronosticado,  it*2  = 
SCR,  cuando  la  ecuacion  se  estima para  todas  las  observaciones  («]  -1-  «2),  y  ^2  «2  —  SCR  cuando 
la  ecuacion  se  estima  para  las  primeras  n\  observaciones  y  k  es  el  numero  de  parametros  estima¬ 
dos  (dos  para  este  caso).  Si  los  errores  son  independientes  y  estan  distribuidos  de  manera  identica 
y  normal,  el  estadistico  F  dado  en  (13.10.1)  sigue  la  distribucion  F,  con  «2  y  n\  gl,  respectiva- 
mente.  En  el  ejercicio  13.31  se  pide  al  lector  aplicar  la  prueba  de  falla  de  prediccion  de  Chow  a 
fin  de  averiguar  si  la  relacion  ahorro-ingreso  en  verdad  cambio.  A  proposito,  observe  la  similitud 
entre  esta  prueba  y  el  pronostico  /2  analizado  antes. 


Datos  faltantes 

En  el  trabajo  aplicado  no  es  raro  descubrir  que  a  veces  faltan  observaciones  de  los  datos  de  la 
muestra.  Por  ejemplo,  en  los  datos  de  series  de  tiempo  puede  haber  lagunas  debido  a  circuns- 
tancias  especiales.  Durante  la  Segunda  Guerra  Mundial  no  hubo  datos  sobre  algunas  variables 
macroeconomicas  o  no  se  publicaron  por  razones  estrategicas.  En  los  datos  transversales  no  es 
extrano  descubrir  que  falta  informacion  sobre  las  variables  de  algunos  individuos,  en  especial  en 
los  datos  recopilados  de  encuestas  por  cuestionarios.  En  los  datos  de  paneles,  asimismo,  algunos 
encuestados  se  retiran  a  la  larga  o  no  proporcionan  informacion  en  todas  las  preguntas. 

Sea  cual  fuere  la  razon,  los  datos  faltantes  son  un  problema  que  enfrenta  todo  investigador 
de  vez  en  cuando.  La  pregunta  es  como  tratar  los  datos  faltantes.  /.Hay  alguna  forma  de  asignar 
valores  a  las  observaciones  faltantes? 

No  es  facil  responder.  Si  bien  existen  algunas  soluciones  complicadas  que  se  recomiendan  en 
la  bibliografia,  no  las  estudiaremos  aqul  debido  a  su  complejidad.47  Sin  embargo,  analizaremos 
dos  casos.48  En  el  primero,  las  razones  por  las  que  hay  datos  faltantes  son  independientes  de 
las  observaciones  disponibles,  situation  que  Darnell  denomina  “caso  ignorable”.  En  el  segundo 
caso,  no  solo  los  datos  disponibles  estan  incompletos,  sino  que  las  observaciones  faltantes  se 
relacionan  de  manera  sistematica  con  los  datos  disponibles.  Este  caso  es  mas  grave,  pero  puede 
ser  resultado  del  sesgo  de  autoseleccion,  es  decir,  los  datos  observados  no  se  recopilan  de  manera 
en  verdad  aleatoria. 


47  Para  un  tratamiento  minucioso  y  avanzado  del  tema,  vease  A.  Colin  Cameron  y  Pravin  K.  Trivedi, 
Microeconometrics:  Methods  and  Applications,  Cambridge  University  Press,  Nueva  York,  2005,  capftulo  27, 
pp.  923-941. 

48  El  siguiente  analisis  se  basa  en  Adrian  C.  Darnell,  A  Dictionary  of  Econometrics,  Edward  Elgar  Publishing, 
Lyne,  Reino  Unido,  1994,  pp.  256-258. 
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En  el  caso  ignorable  se  pueden  simplemente  pasar  por  alto  las  observaciones  faltantes  y  usar 
las  disponibles.  La  mayoria  de  los  paquetes  de  software  estadlstico  lo  hace  de  forma  automatica. 
Por  supuesto,  en  este  caso  el  tamano  de  la  muestra  se  reduce  y  es  posible  que  no  se  obtengan 
estimaciones  precisas  de  los  coeficientes  de  regresion.  Sin  embargo,  con  los  datos  disponibles 
pueden  aclararse  las  observaciones  faltantes.  Aqui  veremos  tres  posibilidades. 

1 .  De  un  numero  total  de  N  observaciones  tenemos  datos  completos  sobre  N\  (N\  <  N)  tanto  para 
la  variable  regresada  como  para  k  regresoras  denotadas  por  Y\  y  X\,  respectivamente.  ( Y\  es 
un  vector  de  N\  observaciones,  y  X\ ,  un  vector  renglon  de  k  regresoras). 

2.  En  algunas  observaciones  ( N2  <  N )  existen  datos  completos  para  la  regresada,  denotada  por 
Yi,  pero  observaciones  incompletas  en  algunas  Xj  (de  nuevo,  se  trata  de  vectores). 

3.  En  algunas  observaciones  (A3  <  N)  no  hay  datos  sobre  Y,  pero  tenemos  datos  completos  sobre 
X,  denotados  por  A3. 

En  el  primer  caso,  la  regresion  de  Y\  sobre  X\  produce  estimaciones  de  los  coeficientes  de  regre¬ 
sion  insesgados,  pero  tal  vez  no  sean  eficientes  porque  ignoramos  N2  y  N3  observaciones.  Los 
otros  dos  casos  son  muy  complicados  y  corresponde  al  lector  consultar  las  referencias.49 


13.11  Ejemplos  para  concluir 


Terminamos  con  dos  ejemplos  que  ilustran  uno  o  mas  de  los  puntos  planteados.  El  primer  ejem- 
plo,  sobre  determinacion  de  salarios,  usa  datos  transversales,  y  el  segundo,  que  considera  la 
funcion  de  consumo  real  de  Estados  Unidos,  datos  de  series  de  tiempo. 

1.  Un  modelo  de  determinacion  de  salarios  por  hora 

Para  examinar  los  factores  que  determinan  los  salarios  por  hora  consideraremos  un  modelo  sa- 
larial  tipo  Mincer,  popular  ya  entre  los  economistas  especializados  en  asuntos  laborales.  Este 
modelo  adopta  la  siguiente  forma:50 

In  salario;  =  +  /fiEsc,  +  ftExp,  +  /^Fe;  +  /S5NB ,•  -b^Sind,  +  /^Sem,  +  1  /, 

(13.11.1) 

donde  In  salario  =  logaritmo  natural  del  salario  por  hora  ($),  Esc  =  escolaridad  en  anos,  Exp  = 
experiencia  en  el  mercado  laboral,  Fe  =  1  si  es  femenino,  0  en  otro  caso,  NB  =  1  si  el  trabajador 
no  es  bianco,  0  en  otro  caso,  Sind  =  1  si  es  trabajador  sindicalizado,  0  en  otro  caso,  y  Sem  =  1  si 
es  trabajador  que  no  recibe  salario  por  hora,  0  en  otro  caso.  Para  los  trabajadores  que  no  reciben 
salario  por  hora,  este  se  calcula  como  el  salario  semanal  dividido  entre  el  numero  acostumbrado 
de  horas  trabajadas. 

Se  pueden  anadir  muchas  variables  mas  a  este  modelo,  como  origen  etnico,  estado  civil,  nu¬ 
mero  de  hijos  menores  de  6  anos  y  riqueza  o  ingreso  no  procedente  del  trabajo.  Por  el  momento 
trabajaremos  con  el  modelo  de  la  ecuacion  (13.11.1). 

Los  datos  corresponden  a  1  289  personas  entrevistadas  en  marzo  de  1985  como  parte  de  la 
Current  Population  Survey  (CPS),  que  periodicamente  realiza  la  Oficina  del  Censo  de  Estados 
Unidos.  Paul  Rudd  recopilo  estos  datos  originalmente.51 


49  Ademas  de  las  referencias  ya  citadas,  vease  A.A.  Afifi  y  R.M.  Elashoff,  "Missing  Observations  in  Multiva¬ 
riate  Statistics",  journal  of  the  American  Statistical  Association,  vol.  61 ,  1 966,  pp.  595-604,  y  vol.  62,  1 967, 
pp.  10-29. 

50  Vease  J.  Mincer,  School,  Experience  and  Earnings,  Columbia  University  Press,  Nueva  York,  1974. 

51  Paul  A.  Rudd,  An  Introduction  to  Classical  Econometric  Theory,  Oxford  University  Press,  Nueva  York,  2000. 
No  se  incluyeron  datos  sobre  edad  porque  son  muy  colineales  con  la  experiencia  laboral. 
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A  priori,  esperariamos  que  la  escolaridad  y  la  experiencia  tuviesen  efecto  positivo  en  los 
salarios.  Se  espera  que  las  variables  dicotomas  Fe  y  NB  tengan  efecto  negativo  en  los  salarios  si 
existe  algun  tipo  de  discriminacion,  y  que  Sind  tenga  efecto  positivo  debido  a  la  incertidumbre 
del  ingreso. 

Cuando  todas  las  variables  dicotomas  toman  un  valor  de  cero,  la  ecuacion  ( 13. 1 1 . 1)  se  reduce  a 

In  salario!  =  /Si  +  /FEsc,-  +  ftExp,  +  z/,  (13.11 .2) 

que  es  la  funcion  de  salario  de  un  trabajador  bianco,  masculino,  no  sindicalizado  y  que  percibe 
salario  por  hora.  Esta  es  la  categoria  base,  o  de  referenda. 

A  continuation  presentamos  los  resultados  de  la  regresion  y  luego  los  analizamos. 


TABLA  1  3.4  Resultados  de  la  regresion  de  EViews  con  base  en  la  ecuacion  (13.11.1) 

Variable  dependiente:  LS 
Metodo:  Minimos  cuadrados 
Muestra:  1-1,  289 
Observaciones  incluidas :  1  289 


Coef iciente 

Error  estandar 

Estadistico  t 

Prob . 

c 

1 . 037880 

0 . 074370 

13 . 95563 

0 .0000 

Esc 

0 .084037 

0 .005110 

16.44509 

0 .0000 

Exp 

0 . 011152 

0 .001163 

9 .591954 

0 .0000 

Fe 

-0.234934 

0 . 026071 

-9 . 011170 

0 .0000 

NB 

-0 . 124447 

0 . 036340 

-3.424498 

0 .0006 

Sind 

0.207508 

0 . 036265 

5 . 721963 

0 .0000 

Sem 

0.228725 

0 . 028939 

7 .903647 

0 .0000 

R  cuadrada  0.376053 
R  cuadrada  ajustada  0.373133 
Error  estandar  de  la  regresion  0.464247 
Suma  de  cuadrados  residual  276.3030 
Log  verosimilitud  -836.4018 
Estadistico  F  128.7771 
Prob.  (estadistico  F )  0.000000 


Media  de  la  variable  dependiente  2.342416 
Desviacion  estandar  de  la 

variable  dependiente  0.586356 
Criterio  de  informacion  de  Akaike  1.308614 
Criterio  de  Schwarz  1.336645 
Criterio  de  Hannan-Quinn  1.319136 
Estad.  Durbin-Watson  1.977004 


Lo  primero  que  se  observa  es  que  todos  los  coeficientes  estimados  son  muy  significativos  en  lo 
individual,  pues  los  valores  p  son  muy  bajos.  El  valor  F  tambien  es  muy  alto,  lo  que  indica  que 
tambien,  en  conjunto,  todas  las  variables  son  estadisticamente  importantes. 

En  comparacion  con  el  trabajador  de  referencia,  el  salario  promedio  de  una  trabajadora  y  de 
un  trabajador  no  bianco  es  inferior.  Los  trabajadores  sindicalizados  y  los  que  perciben  salario 
semanal,  en  promedio,  ganan  mas. 

^Es  adecuado  el  modelo  (13.11.1)  dadas  las  variables  consideradas?  (,Es  posible  que  las  tra- 
bajadoras  no  blancas  ganen  menos  que  los  trabajadores  blancos?  (,Es  posible  que  las  trabajadoras 
no  blancas  y  no  sindicalizadas  ganen  menos  que  las  trabajadoras  blancas  sindicalizadas?  En 
otras  palabras,  ('jiay  efectos  de  interaccion  entre  las  regresoras  cuantitativas  y  las  variables  dico¬ 
tomas? 

Los  paquetes  estadisticos  responden  a  estas  preguntas.  Por  ejemplo,  EViews  cuenta  con  esta 
capacidad.  Despues  de  estimar  un  modelo,  si  uno  cree  que  se  le  pueden  agregar  algunas  variables 
pero  no  esta  seguro  de  su  importancia,  puede  ejecutar  la  prueba  de  variables  omitidas. 

Para  demostrar  esto,  suponga  que  estimamos  la  ecuacion  (13.11.1)  y  deseamos  averiguar  si 
los  productos  de  Fe  y  NB,  Fe  y  Sind,  y  Fe  y  Sem  deben  agregarse  al  modelo  para  tomar  en  cuenta 
la  interaccion  entre  las  variables  explicativas.  Con  la  rutina  de  EViews6  obtenemos  la  siguiente 
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respuesta:  la  hipotesis  nula  es  que  estas  tres  variables  anadidas  no  tienen  efecto  en  el  modelo 
estimado. 

Como  es  de  suponer,  la  prueba  F  (estudiada  en  el  capltulo  8)  sirve  para  evaluar  la  contribution 
marginal,  o  incremental,  de  las  variables  anadidas  y  probar  la  hipotesis  nula.  En  este  ejemplo,  los 
resultados  son  los  siguientes: 


TABLA  13.5 

Resultados  parciales 
de  E  Views  median te 
interacciones 


No  rechazamos  la  hipotesis  nula  de  que  la  interaction  entre  mujeres  y  no  blancos,  mujeres  y 
sindicalizados  y  mujeres  y  trabajadores  que  perciben  salario  semanal,  colectivamente,  no  tiene 
efecto  significativo  en  el  modelo  estimado  que  se  presenta  en  la  tabla  13.4,  pues  el  valor  estimado 
de  F  de  0.8053  no  es  estadisticamente  significativo  y  el  valor  p  es  de  aproximadamente  49  por 
ciento. 

Queda  al  lector  la  tarea  de  probar  otras  combinaciones  de  regresoras  para  evaluar  su  contribu¬ 
cion  al  modelo  semanal. 

Antes  de  proseguir,  el  modelo  (13.11.1)  indica  que  la  influencia  de  la  experiencia  sobre  el 
logaritmo  de  los  salarios  es  lineal,  es  decir,  si  las  demas  variables  se  mantienen  constantes,  el  in- 
cremento  relativo  en  los  salarios  (recuerde  que  la  regresada  esta  en  forma  logaritmica)  es  igual  por 
cada  ano  de  aumento  de  experiencia  laboral.  Este  supuesto  puede  ser  verdadero  a  traves  de  varios 
anos  de  experiencia,  pero  como  indica  la  economia  laboral  basica,  conforme  los  trabajadores  en- 
vejecen,  el  aumento  de  la  tarifa  salarial  se  reduce.  Para  comprobar  si  asi  sucede  en  este  ejemplo, 
agregamos  el  termino  de  experiencia  al  cuadrado  al  modelo  inicial,  con  los  siguientes  resultados: 


Variables  omitidas:  Fe*NB 

Fe*Sind  Fe*Sem 

Estadistico  F 

Log  razon  de  verosimilitud 

0.805344  Prob. 

2.432625  Prob. 

F  (3  1279) 
ji  cuadrada  (3) 

0.4909 

0.4876 

TABLA  13.6  Resultados  de  EViews  con  experiencia  al  cuadrado 


Variable  dependiente:  LS 

Metodo:  Mlnimos  cuadrados 

Muestra:  1-1,  289 

Observaciones  incluidas :  1  289 

Coef iciente 

Error  estandar 

Estadistico  t 

Prob . 

C 

0 . 912279 

0 . 075151 

12 . 13922 

0 . 0000 

Esc 

0 . 079867 

0 . 005051 

15 . 81218 

0 . 0000 

Exp 

0 . 036659 

0 . 003800 

9 . 647230 

0 . 0000 

Fe 

-0.228848 

0 . 025606 

-8 . 937218 

0 .0000 

NB 

-0 . 121805 

0 . 035673 

-3.414458 

0 . 0007 

Sind 

0 . 199957 

0 . 035614 

5 . 614579 

0 .0000 

Sem 

0.222549 

0 . 028420 

7 . 830675 

0 . 0000 

Exp* Exp 

-0 . 000611 

8 . 68E-05 

-7 . 037304 

0 .0000 

R  cuadrada 

0.399277  Media  de  la 

variable  dependiente 

2.342416 

R  cuadrada  ajustada 

0.395995  Desviacion  i 

estandar  de  la 

Error  estandar 

de  la  regresion 

0.455703  variable  dependiente 

0 .586356 

Suma  de  cuadrados  residual 

266.0186  Criterio  de 

informacion  de  Akaike 

1.272234 

Log  verosimilitud 

-811.9549  Criterio  de 

Schwarz 

1.304269 

Estadistico  F 

121.6331  Criterio  de 

Hannan - Quinn 

1.284259 

Prob.  (estadistico  F) 

0.000000  Estad.  Durbin-Watson 

1 . 971753 

El  termino  de  experiencia  al  cuadrado  no  solo  es  negativo,  sino  tambien  muy  significativo  esta¬ 
disticamente.  Ademas,  concuerda  con  el  comportamiento  del  mercado  laboral;  con  el  tiempo,  la 


tasa  de  crecimiento  de  los  salarios  se  desacelera 


3  Iw 
3EXP 


0.0366  -  0.0012EXP  . 
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Aqui  se  abre  la  oportunidad  para  explicar  los  criterios  de  Akaike  y  Schwartz.  A1  igual  que  R2, 
son  pruebas  de  la  bondad  del  ajuste  del  modelo  estimado;  la  diferencia  radica  en  que  segun  el 
criterio  R2,  cuanto  mayor  sea  el  valor,  el  modelo  explicara  mejor  el  comportamiento  de  la  variable 
regresada.  Por  otra  parte,  segun  los  criterios  de  Akaike  y  Schwartz,  cuanto  mas  bajo  sea  el  valor 
de  estos  estadisticos,  mejor  sera  el  modelo. 

Por  supuesto,  todos  estos  criterios  son  significativos  si  deseamos  comparar  dos  o  mas  mode¬ 
los.  Asi,  si  comparamos  el  modelo  de  la  tabla  13.4  con  el  de  la  tabla  13.6,  que  tiene  la  experiencia 
elevada  al  cuadrado  como  regresora  adicional,  se  observa  que  el  modelo  de  la  tabla  13.6  es  pre- 
ferible  al  de  la  tabla  13.4  con  base  en  los  tres  criterios. 

A  proposito,  note  que  en  los  dos  modelos  los  valores  de  R2  parecen  “bajos”,  pero  estos  valores 
bajos  se  observan  por  lo  general  en  datos  transversales  con  un  gran  numero  de  observaciones. 
Sin  embargo,  tenga  en  cuenta  que  este  valor  “bajo”  de  R1  es  estadisticamente  significativo,  pues, 
en  los  dos  modelos,  el  estadistico  F  calculado  es  muy  significativo  (recuerde  la  relacion  entre  F 
y  R2  del  capitulo  8). 

Continuemos  con  el  modelo  ampliado  de  la  tabla  13.6.  Aunque  el  modelo  parece  satisfactorio, 
exploraremos  dos  cuestiones.  Primera,  en  vista  de  que  se  trata  de  datos  transversales,  hay  muchas 
probabilidades  de  que  el  modelo  sufra  de  heteroscedasticidad.  En  consecuencia,  es  preciso  ave- 
riguar  si  es  asi.  Aplicamos  varias  de  las  pruebas  de  heteroscedasticidad  estudiadas  en  el  capitulo 
1 1  y  comprobamos  que  el  modelo,  en  efecto,  tiene  heteroscedasticidad.  El  lector  debe  corroborar 
esta  afirmacion. 

Para  corregir  esta  heteroscedasticidad  obtenemos  los  errores  estandar  consistentes  con  hete¬ 
roscedasticidad  de  White,  que  examinamos  en  el  capitulo  11.  Los  resultados  se  presentan  en  la 
siguiente  tabla. 


TABLA  13.7  Resultados  de  EViews  mediante  errores  estandar  corregidos  de  White 


Variable  dependiente:  LS 

Metodo:  Mlnimos  cuadrados 

Muestra:  1-1,  289 

Observaciones  incluidas :  1  289 

Errores  estandar  consistentes  con 

heteroscedasticidad 

de  White  y  covarianza 

Coef iciente 

Error  estandar 

Estadistico  t 

Prob . 

C 

0 . 912279 

0 . 077524 

11 . 76777 

0 . 0000 

Esc 

0 . 079867 

0 . 005640 

14 . 15988 

0 .0000 

Exp 

0 . 036659 

0 . 003789 

9 . 675724 

0 . 0000 

Fe 

-0.228848 

0 . 025764 

-8.882625 

0 . 0000 

NB 

-0 . 121805 

0 . 033698 

-3 .614573 

0 . 0003 

Sind 

0 . 199957 

0 . 029985 

6 . 668458 

0 . 0000 

Sem 

0.222549 

0 . 031301 

7 . 110051 

0 . 0000 

Exp* Exp 

-0 . 000611 

9.44E-05 

-6.470218 

0 . 0000 

R  cuadrada  0.399277 
R  cuadrada  ajustada  0.395995 
Error  estandar  de  la  regresion  0.455703 
Suma  de  cuadrados  residual  266.0186 
Log  verosimilitud  -811.9549 
Estadistico  F  121.6331 
Prob.  (estadistico  F)  0.000000 


Media  de  la  variable  dependiente  2.342416 
Desviacion  estandar  de  la 

variable  dependiente  0.586356 
Criterio  de  informacion  de  Akaike  1.272234 
Criterio  de  Schwarz  1.304269 
Criterio  de  Hannan-Quinn  1.284259 
Estad.  Durbin-Watson  1.971753 


Como  es  de  esperar,  se  advierten  algunos  cambios  en  los  errores  estandar  estimados,  aunque 
esto  no  modifica  la  conclusion  de  que  todas  las  regresoras  son  importantes,  tanto  en  lo  individual 
como  en  lo  colectivo,  para  explicar  el  comportamiento  de  los  salarios  relativos. 

A  continuacion  examinaremos  si  los  terminos  de  error  estan  distribuidos  normalmente.  En  la 
figura  13.5  se  presenta  el  histograma  de  los  residuos  obtenidos  del  modelo  de  la  tabla  13.7.  El 
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FIGURA  13.5 

Histograma  de  los  resi- 
duos  obtenidos  de  la  re¬ 
gresion  de  la  tabla  13.7. 


Serie:  RESID 

Muestra:  1-1  289 

Observaciones:  1 

289 

Media 

-9.38e-09 

Mediana 

-0.850280 

Maximo 

48.92719 

Minimo 

-20.58590 

Desv.  est. 

6.324574 

Asimetria 

1.721323 

Curtosis 

10.72500 

Jarque-Bera 

3841.617 

Probabilidad 

0.000000 

estadlstico  de  Jarque-Bera  rechaza  la  hipotesis  de  que  los  errores  estan  distribuidos  normalmente, 
pues  el  estadlstico  de  JB  es  alto  y  el  valor p  es  practicamente  cero:  observe  que  para  una  variable 
distribuida  normalmente,  los  coeficientes  de  asimetria  y  curtosis  son  0  y  3,  respectivamente. 

7,  Que  sigue?  El  procedimiento  de  pruebas  de  hipotesis  se  ha  basado  hasta  el  momento  en  el 
supuesto  de  que  el  termino  de  perturbacion,  o  error,  en  el  modelo  de  regresion  esta  distribuido 
normalmente.  ^Significa  esto  que  no  se  pueden  usar  legitimamente  las  pruebas  t  y  F  para  probar 
las  hipotesis  de  la  regresion  de  los  salarios? 

La  respuesta  es  no.  Como  senalamos  en  el  capitulo,  los  estimadores  de  MCO  tienen  distribu- 
cion  normal  asintotica,  con  la  advertencia  apuntada  en  el  capitulo,  es  decir,  el  termino  de  error 
tiene  varianza  finita,  es  homoscedastico  y  el  valor  medio  del  termino  de  error,  dados  los  valores 
de  las  variables  explicativas,  es  cero.  Como  resultado,  podemos  seguir  usando  las  pruebas  t  y  F 
acostumbradas  en  tanto  la  muestra  sea  razonablemente  grande.  A  proposito,  debe  senalarse  que 
no  necesitamos  el  supuesto  de  normalidad  para  obtener  los  estimadores  de  MCO.  Aun  sin  el  su¬ 
puesto  de  normalidad,  los  estimadores  de  MCO  son  los  mejores  estimadores  lineales  insesgados 
(MELI)  segun  los  supuestos  de  Gauss-Markov. 

(',Dc  que  tamano  es  una  muestra  grande?  No  hay  respuesta  definitiva,  pero  el  tarnano  de  la 
muestra  de  1  289  observaciones  de  la  regresion  de  los  salarios  parece  razonablemente  grande. 

<,Hay  “valores  atipicos”  en  la  regresion  de  los  salarios?  Es  posible  darse  una  idea  con  el  gra- 
fico  de  la  figura  13.6,  que  presenta  los  valores  reales  y  estimados  de  la  variable  dependiente 


FIGURA  13.6 

Residuos  y  valores  esti¬ 
mados  de  la  variable  de¬ 
pendiente,  In  salarios. 
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(In  salarios)  y  los  residuos,  que  son  las  diferencias  entre  los  valores  reales  y  los  estimados  de  la 
regresada. 

Aunque  el  valor  medio  de  los  residuos  es  siempre  cero  (i,por  que?),  la  grafica  de  la  figura  13.6 
muestra  varios  residuos  que  dan  la  impresion  de  ser  grandes  (en  valor  absoluto )  en  comparacion 
con  la  mayoria  de  ellos.  Es  posible  que  haya  valores  atlpicos  en  los  datos.  Se  proporcionan  las 
estadlsticas  basicas  de  las  tres  variables  cuantitativas  en  la  tabla  13.8  para  que  el  lector  decida  si, 
en  efecto,  hay  valores  atipicos. 


TABLA  13.8 


Muestra:  1-1,  289 

Sal 

Esc 

Exp 

Media 

12 .36585 

13 . 14507 

18 .78976 

Mediana 

10 . 08000 

12 .00000 

18 . 00000 

Maximo 

64 . 08000 

20.00000 

56 . 00000 

Minimo 

0 . 840000 

0 . 000000 

0 . 000000 

Desv.  est. 

7 .896350 

2 . 813823 

11 .66284 

Asimetria 

1 . 848114 

-0.290381 

0 .375669 

Curtosis 

7 . 836565 

5 . 977464 

2.327946 

Jarque-Bera 

1990 . 134 

494.2552 

54 .57664 

Probabilidad 

0 .000000 

0 . 000000 

0 .000000 

Suraa 

15  939.58 

16  944.00 

24  220.00 

Suma  desv.  al  cuadrado 

80  309.82 

10  197.87 

175  196.0 

Observaciones 

1  289 

1  289 

1  289 

2.  Funcion  de  consumo  real  de  Estados  Unidos,  1947-2000 

En  el  capitulo  10  consideramos  la  funcion  de  consumo  en  Estados  Unidos  de  1947  a  2000.  La 
forma  especifica  de  la  funcion  de  consumo  fue: 

In  GT,  =  />i  +  fh  In  ID,  +  f>3  In  Riq  +  /341nteres,  +  u,  (13.11 .3) 

donde  GT,  ID,  Riqueza  e  Interes  son,  respectivamente,  gasto  total  de  consumo,  ingreso  perso¬ 
nal  disponible,  riqueza  y  tasa  de  interes,  todos  en  terminos  reales.  Los  resultados  basados  en  los 
datos  son  los  siguientes: 


TABLA  13.9  Resultados  de  la  ecuacion  de  regresion  (13.11.3) 


Metodo:  Mlnimos  cuadrados 
Muestra:  1947-2000 
Observaciones  incluidas :  54 


Coef iciente 

Error  estandar 

Estadlstico  t 

Prob . 

C 

-0.467711 

0 . 042778 

-10 . 93343 

0 . 0000 

LOG  (ID) 

0 .804873 

0 . 017498 

45 . 99836 

0 . 0000 

LOG  (RIQUEZA) 

0.201270 

0 . 017593 

11.44060 

0 . 0000 

INTERES 

-0 . 002689 

0 . 000762 

-3 . 529265 

0 . 0009 

R  cuadrada 

0 . 999560 

Media  de  la 

variable  dependiente 

7 . 826093 

R  cuadrada  ajustada 

0 . 999533 

Desviacion  i 

estandar  de  la 

Error  estandar 

de  la  regresion 

0 . 011934 

variable  dependiente 

0 . 552368 

Suma  de  cuadrados  residual 

0 . 007121 

Criterio  de 

informacion  de  Akaike 

-5 . 947703 

Log  verosimilitud 

164 .5880 

Criterio  de 

Schwarz 

-5.800371 

Estadlstico  F 

37  832.59 

Criterio  de 

Hannan - Quinn 

-5.890883 

Prob.  (estadlstico  F) 

0 . 000000 

Estadlstico 

de  Durbin-Watson 

1.289219 
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Como  GT,  ID  y  Riqueza  entran  en  forma  de  logaritmo,  los  coeficientes  estimados  de  la  pen- 
diente  de  ID  y  Riqueza  son,  respectivamente,  las  elasticidades  del  ingreso  y  la  riqueza.  Como  es 
de  esperar,  estas  elasticidades  son  positivas  y  muy  significativas  estadisticamente.  En  terminos 
numericos,  las  elasticidades  del  ingreso  y  de  la  riqueza  son  casi  0.80  y  0.20.  El  coeficiente  de  la 
variable  tasa  de  interes  representa  semielasticidad  ( /.por  que?).  Si  las  demas  variables  permane- 
cen  constantes,  los  resultados  demuestran  que  si  la  tasa  de  interes  aumenta  un  punto  porcentual, 
en  promedio,  el  gasto  de  consumo  real  se  reduce  alrededor  de  0.27%.  Observe  que  la  semielasti¬ 
cidad  estimada  tambien  es  muy  significativa  en  terminos  estadisticos. 

Aprecie  algunos  estadisticos  del  resumen.  El  valor  de  R 2  es  muy  alto  y  llega  casi  a  100%.  El 
valor  F  tambien  es  muy  significativo  estadisticamente,  lo  que  indica  que  no  solo  en  lo  individual, 
sino  tambien  en  conjunto,  todas  las  variables  explicativas  tienen  efecto  significativo  sobre  el 
gasto  de  consumo. 

No  obstante,  el  estadistico  de  Durbin- Watson  indica  que  los  errores  del  modelo  estan  serial- 
mente  correlacionados.  Si  consulta  las  tablas  Durbin- Watson  (tabla  D.5,  apendice  D),  advertira 
que  para  55  observaciones  (el  numero  mas  cercano  a  54)  y  tres  variables  explicativas,  los  valores 
criticos  d  inferior  y  superior  a  5%  son  1 .452  y  1 .68 1 .  Como  la  d  observada  en  el  ejemplo,  1 .2892, 
se  situa  por  debajo  del  valor  critico  d  inferior,  podemos  concluir  que  los  errores  de  esta  funcion 
de  consumo  tienen  correlacion  positiva.  Este  resultado  no  debe  sorprender,  pues  en  la  mayoria  de 
las  regresiones  de  series  de  tiempo  existe  autocorrelacion. 

Pero  antes  de  aceptar  esta  conclusion,  veamos  si  existen  errores  de  especificacion.  Como  sa- 
bemos,  en  ocasiones  la  autocorrelacion  puede  ser  aparente  porque  se  omitieron  algunas  variables 
importantes.  Para  ver  si  es  asi,  consideremos  la  regresion  obtenida  en  la  tabla  13.10. 


TABLA  13.10 


Variable  dependiente:  LGT 
Metodo:  Mlnimos  cuadrados 
Muestra:  1947-2000 
Observaciones  incluidas :  54 


Coeficiente 


Error  estandar 


Estadistico  t 


Probabilidad 


c 

2 .689644 

0 .566034 

4 . 751737 

0 . 0000 

LID 

0 .512836 

0 . 054056 

9.487076 

0 . 0000 

LRiqueza 

-0.205281 

0 . 074068 

-2 .771510 

0 . 0079 

INTERES 

-0 . 001162 

0 . 000661 

-1 . 759143 

0 . 0848 

LID*LRiqueza 

0 . 039901 

0 . 007141 

5 .587986 

0 . 0000 

R  cuadrada 

0 . 999731 

Media  de  la 

variable  dependiente 

7 . 8260933 

R  cuadrada  ajustada 

0 . 999709 

Desviacion  ( 

estandar  de  la 

Error  estandar 

de  la  regresion 

0 . 009421 

variable  dependiente 

0 . 552368 

Suma  de  cuadrados  residual 

0 . 004349 

Criterio  de 

informacion  de  Akaike 

-6.403689 

Log  verosimilitud 

177 .8996 

Criterio  de 

Schwarz 

-6.219524 

Estadistico  F 

45  534.94 

Criterio  de 

Hannan - Quinn 

-5.890883 

Probabilidad  ( 

estadistico  F) 

0 . 000000 

Estadistico 

de  Durbin-Watson 

1 . 530268 

La  variable  adicional  de  este  modelo  es  la  interaccion  de  los  logaritmos  del  ingreso  disponible 
y  de  la  riqueza.  El  termino  de  interaccion  es  muy  significativo.  Observe  que  ahora  la  variable  in¬ 
teres  es  menos  significativa  (el  valor  p  es  de  casi  8%),  aunque  conserva  el  signo  negativo.  Pero 
ahora  el  valor  d  de  Durbin  Watson  aumento  de  casi  1.28  a  alrededor  de  1.53. 

Los  valores  criticos  d  a  5%  son  ahora  1.378  y  1.721.  El  valor  d  observado  de  1.53  se  situa 
entre  estos  valores,  lo  que  indica  que,  con  base  en  el  estadistico  de  Durbin- Watson,  no  podemos 
determinar  si  hay  autocorrelacion.  Sin  embargo,  el  valor  d  observado  esta  mas  cerca  del  limite 
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superior  del  valor  d.  Como  senalamos  en  el  capitulo  sobre  autocorrelacion,  algunos  autores  pro- 
ponen  usar  el  limite  superior  del  estadistico  d  como  el  verdadero  limite  de  significance  aproxi- 
mado;  por  tanto,  si  el  valor  d  calculado  se  sitiia  por  debajo  del  limite  superior,  hay  indicios  de 
autocorrelacion  positiva.  Con  base  en  ese  criterio,  en  el  presente  caso  podemos  concluir  que  el 
modelo  sufre  de  autocorrelacion  positiva. 

Tambien  aplicamos  la  prueba  de  autocorrelacion  de  Breusch-Godfrey  que  explicamos  en 
el  capitulo  12.  A1  sumar  los  dos  terminos  rezagados  de  los  residuos  estimados  en  la  ecuacion 
(12.6.15)  al  modelo  de  la  tabla  13.9,  obtuvimos  los  siguientes  resultados: 


TABLA  13.11 


Prueba  ML  de  correlacion  serial 

de  Breusch-Godfrey 

Estadistico  F  3.254131 

R  cuadrada  obs . *  6.447576 

Prob.  F( 2,  48) 

Prob .  ji  cuadrada  (2) 

0 . 0473 

0.0398 

Variable  dependiente:  RESID 
Metodo:  Mlnimos  cuadrados 
Muestra:  1947-2000 
Observaciones  incluidas :  54 

Valores  de  los  residuos  rezagados  faltantes  de  preprueba  fijados  en  cero. 


Coef iciente 

Error  estandar 

Estadistico  t 

Probabilidad 

C 

-0 . 006514 

0 . 041528 

-0 . 156851 

0 .8760 

LID 

-0 . 004197 

0 . 017158 

-0.244619 

0 .8078 

LRiqueza 

0 . 004191 

0 . 017271 

0.242674 

0 .8093 

INTERES 

0 . 000116 

0 . 000736 

0 . 156964 

0 .8759 

RESID  (-1) 

0.385190 

0 . 151581 

2 . 541147 

0 . 0143 

RESID  (-2) 

-0 . 165609 

0 . 154695 

-1 . 070556 

0.2897 

R  cuadrada  0.119400 
R  cuadrada  ajustada  0.027670 
Error  estandar  de  la  regresion  0.011430 
Suma  de  cuadrados  residual  0.006271 
Log  verosimilitud  168.0211 
Estadistico  F  1.301653 
Probabilidad  (estadistico  F)  0.279040 


Media  de  la  variable  dependiente  -9.02E-17 
Desviacion  estandar  de  la 

variable  dependiente  0.011591 
Criterio  de  informacion  de  Akaike  -6.000781 
Criterio  de  Schwarz  -5.779782 
Criterio  de  Hannan-Quinn  -5.915550 
Estadistico  de  Durbin-Watson  1.848014 


El  valor  F  reportado  al  principio  de  la  tabla  prueba  la  hipotesis  de  que  los  dos  residuos  rezagados 
incluidos  en  el  modelo  tienen  valores  cero.  Esta  hipotesis  se  rechaza  porque  el  valor  F  es  signifi¬ 
cative  en  el  nivel  aproximado  de  5  por  ciento. 

Para  resumir,  parece  que  hay  autocorrelacion  en  el  termino  de  error.  Se  pueden  aplicar  uno 
o  mas  de  los  procedimientos  analizados  en  el  capitulo  12  para  eliminar  la  autocorrelacion.  Sin 
embargo,  para  ahorrar  espacio,  se  deja  esa  tarea  al  lector. 

En  la  tabla  13.12  presentamos  los  resultados  del  analisis  de  regresion  de  los  errores  estandar 
CHA  o  Newey-West  que  toman  en  cuenta  la  autocorrelacion.  El  tamano  de  la  muestra  de  54  ob¬ 
servaciones  es  lo  bastante  grande  para  usar  los  errores  estandar  CHA. 

Si  compara  estos  resultados  con  los  que  se  presentan  en  la  tabla  13.9,  observara  que  los  coefi- 
cientes  de  regresion  siguen  siendo  los  mismos,  pero  los  errores  estandar  son  un  poco  diferentes. 

En  este  capitulo  hablamos  de  la  prueba  de  falla  de  prediccion  de  Chow.  Tenemos  un  periodo 
de  muestra  de  1947  a  2000.  Durante  este  periodo  se  registraron  varios  ciclos  economicos,  en  su 
mayoria  breves.  Por  ejemplo,  hubo  una  recesion  en  1990  y  otra  en  2000.  ^El  comportamiento  del 
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TABLA  13.12 


Variable  dependiente:  LGT 
Metodo:  Mlnimos  cuadrados 

Muestra:  1947-2000 

Observaciones  incluidas :  54 
Errores  estandar  CHA  Newey-West 

y  covarianza  (truncamiento  de  rezago  = 

3) 

Coef iciente 

Error  estandar 

Estadlstico  t 

Probabilidad 

C  -0.467714 

0 . 043937 

-10 . 64516 

0 . 0000 

LID  0.804871 

0 .017117 

47 . 02132 

0 .0000 

LRiqueza  0.201272 

0 . 015447 

13 . 02988 

0 . 0000 

INTERES  -0.002689 

0 .000880 

-3 . 056306 

0 .0036 

R  cuadrada 

0 . 999560 

Media  de  la 

variable  dependiente 

7 . 826093 

R  cuadrada  ajustada 

0 . 999533 

Desviacion  estandar  de  la 

Error  estandar  de  la  regresion 

0 . 011934 

variable  dependiente 

0 . 552368 

Suma  de  cuadrados  residual 

0 . 007121 

Criterio  de 

informacion  de 

Aka ike 

-5 . 947707 

Log  verosimilitud 

164 .5881 

Criterio  de 

Schwarz 

-5.800374 

Estadlstico  F 

37  832.71 

Criterio  de 

Hannan - Quinn 

-5.890886 

Probabilidad  (estadlstico  F ) 

0 . 000000 

Estadlstico 

de  Durbin-Watson 

1.289237 

gasto  de  consumo  en  relacion  con  el  ingreso,  riqueza  y  la  tasa  de  interes  es  distinto  durante  las 
recesiones? 

Para  aclarar  esta  pregunta,  consideremos  la  recesion  de  1 990  y  apliquemos  la  prueba  de  falla  de 
prediccion  de  Chow.  Los  detalles  de  esta  prueba  ya  se  analizaron  en  el  capltulo.  Con  la  prueba 
de  falla  de  prediccion  de  Chow  enEViews,  version  6,  obtenemos  los  resultados  de  la  tabla  13.13. 


TABLA  13.13  Prueba  de  falla  de  prediccion  de  Chow 


Prueba  de  pronostico  de  Chow: 

Pronostico 

de  1991  a  2000 

Estadlstico  F 

1 . 957745 

Prob .  F 

(10,  40) 

0 . 0652 

Log  razon  de  verosimilitud 

21 . 51348 

Prob .  j i 

cuadrada  (10) 

0 . 0178 

Variable  dependiente:  LGT 

Metodo:  Mlnimos  cuadrados 

Muestra:  1947-2000 

Observaciones  incluidas:  44 

Coef iciente 

Error  estandar 

Estadlstico  t 

Probabilidad 

C  -0.287952 

0 . 095089 

-3 . 028236 

0 . 0043 

LID  0.853172 

0 . 028473 

29 . 96474 

0 . 0000 

LRiqueza  0.141513 

0 . 033085 

4.277239 

0 . 0001 

INTERES  -0.002060 

0 . 000804 

-2 . 562790 

0 . 0143 

R  cuadrada 

0 . 999496 

Media  de  la 

variable  dependiente 

7 . 659729 

R  cuadrada  ajustada 

0 . 999458 

Desviacion  estandar  de  la 

Error  estandar  de  la  regresion  0.010933 

variable  dependiente 

0.469580 

Suma  de  cuadrados  residual 

0 . 004781 

Criterio  de 

informacion  de 

Akaike 

-6 . 107640 

Log  verosimilitud 

138.3681 

Criterio  de 

Schwarz 

-5 . 945441 

Estadlstico  F 

26  430.49 

Criterio  de 

Hannan - Quinn 

-6 . 047489 

Probabilidad  (estadlstico  F ) 

0 . 000000 

Estadlstico 

de  Durbin-Watson 

1.262748 
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El  estadistico  F  dado  en  la  parte  superior  de  la  tabla  13.13  indica  que  probablemente  no  hay 
diferencia  considerable  en  la  funcion  de  consumo  antes  y  despues  de  1990,  pues  el  valor  p  no  es 
significativo  en  el  nivel  de  5%.  Sin  embargo,  si  elegimos  el  nivel  de  significancia  de  10%,  el  valor 
F  es  significativo  estadisticamente. 

Podemos  examinar  este  problema  de  otra  manera.  En  el  capitulo  8  analizamos  una  prueba  de 
estabilidad  de  parametros.  Para  ver  si  hubo  algun  cambio  estadisticamente  significativo  en  los 
coeficientes  de  regresion  de  la  funcion  de  consumo,  aplicamos  la  prueba  de  Chow  estudiada  en 
la  seccion  8.7  del  capitulo  8  y  obtuvimos  los  resultados  de  la  tabla  13.14. 


TABLA  13.14 

Prueba  de  estabilidad 
parametrica  de  Chow 


Prueba  de  puntos  de  ruptura  estructural  de  Chow:  1990 
Hipotesis  nula:  No  hay  rupturas  en  los  puntos  especif icados 
Regresoras  que  varlan:  Todas  las  variables  de  la  ecuacion 
Muestra  de  la  ecuacion:  1947-200 


Estadistico  F  4.254054  Prob .  F{ 4,  46)  0.0052 
Log  razon  de  verosimilitud  16.99654  Prob.  ji  cuadrada  (4)  0.0019 
Estadistico  de  Wald  17.01622  Prob.  ji  cuadrada  (4)  0.0019 


En  apariencia,  las  funciones  de  consumo  antes  y  despues  de  1990  son  estadisticamente  dife- 
rentes,  pues  el  estadistico  F  calculado,  segun  la  ecuacion  (8.7.4),  es  muy  significativo  estadisti¬ 
camente,  porque  el  valor  p  es  de  solo  0.0052. 

Se  invita  al  lector  a  aplicar  las  pruebas  de  estabilidad  parametrica  y  falla  de  prediction  de 
Chow  para  determinar  si  vario  la  funcion  de  consumo  antes  y  despues  de  2000.  Para  ello  sera 
necesario  ampliar  los  datos  mas  alia  de  2000.  Asimismo,  observe  que,  para  aplicar  estas  pruebas, 
el  numero  de  observaciones  debe  ser  mayor  que  el  numero  de  coeficientes  estimados. 

Agotamos  todas  las  pruebas  de  diagnostico  que  se  pueden  aplicar  a  los  datos  de  consumo.  Sin 
embargo,  el  analisis  hasta  el  momento  debe  dar  una  idea  muy  buena  de  como  aplicar  las  diversas 
pruebas. 


13.12  Errores  no  normales  y  regresoras  estocasticas 


En  esta  seccion  analizamos  dos  temas  mas  o  menos  avanzados,  a  saber,  la  distribucion  no  normal 
del  termino  de  error  y  las  regresoras  estocasticas,  o  aleatorias,  y  su  importancia  practica. 

1.  ^Que  pasa  si  el  termino  de  error  no  esta  distribuido 
normalmente? 

En  el  modelo  cldsico  de  regresion  lineal  normal  (MCRLN)  explicado  en  el  capitulo  4,  supusimos 
que  el  termino  de  error  u  sigue  la  distribucion  normal.  Invocamos  el  teorema  central  del  limite 
(TCL)  para  justificar  el  supuesto  de  normalidad.  Debido  a  este  supuesto,  podemos  establecer  que 
los  estimadores  de  MCO  tambien  estan  distribuidos  normalmente.  Como  resultado,  para  probar 
hipotesis  aplicamos  las  pruebas  t  y  F  sin  importar  el  tamano  de  la  muestra.  Tambien  explicamos 
como  usar  las  pruebas  de  normalidad  de  Jarque-Bera  y  Anderson-Darling  para  averiguar  si  los 
errores  estimados  estan  distribuidos  normalmente  en  cualquier  aplicacion  practica. 

,',Que  sucede  si  los  errores  no  estan  distribuidos  normalmente?  Podemos  afirmar  que  los  esti¬ 
madores  de  MCO  siguen  siendo  MELI,  es  decir,  que  son  insesgados  y  en  la  clase  de  estimadores 
lineales  exhiben  varianza  minima.  En  principio,  esto  no  debe  sorprender,  pues,  para  establecer  el 
teorema  de  Gauss-Markov  (MELI),  no  necesitamos  el  supuesto  de  normalidad. 

Entonces,  ^.cual  es  el  problema? 

El  problema  es  que  se  necesitan  las  distribuciones  de  muestreo,  o  de  probabilidades,  de 
los  estimadores  de  MCO.  Sin  eso  no  es  posible  realizar  ningun  tipo  de  prueba  de  hipotesis  refe- 
rente  a  los  valores  verdaderos  de  estos  estimadores.  Como  se  muestra  en  los  capltulos  3  y  7,  los 
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estimadores  de  MCO  son  funciones  lineales  de  la  variable  dependiente  Y. ,  y  la  propia  Y  es  una 
funcion  lineal  del  termino  de  error  estocastico  u,  suponiendo  que  las  variables  explicativas  son 
no  estocasticas,  o  fijas,  en  muestras  repetidas.  En  ultima  instancia,  necesitamos  la  distribucion 
de  probabilidades  de  u. 

Como  se  menciono,  el  modelo  clasico  de  regresion  lineal  normal  (MCRLN)  supone  que  el 
termino  de  error  sigue  la  distribucion  normal  (con  media  cero  y  varianza  constante).  Aplicamos 
el  teorema  central  del  li'mite  (TCL)  para  justificar  la  normalidad  del  termino  de  error  y  de- 
mostramos  que  los  estimadores  de  MCO  estan  distribuidos  normalmente  con  medias  y  varianza 
analizadas  en  los  capltulos  4  y  7.  Esto,  a  su  vez,  permitio  usar  los  estadlsticos  1  y  E’para  probar 
hipotesis  en  muestras  pequenas,  o  finitas,  as!  como  en  muestras  grandes.  Por  tanto,  la  funcion  del 
supuesto  de  normalidad  es  crucial,  en  especial  en  muestras  pequenas. 

Pero,  <',que  pasa  si  no  es  posible  sostener  el  supuesto  de  normalidad  con  base  en  las  diferentes 
pruebas  de  normalidad?  p Y  despues  que?  Existen  dos  opciones.  La  primera  es  el  remuestreo,  y 
la  segunda  consiste  en  invocar  la  teoria  de  muestras  grandes,  o  asintoticas. 

El  analisis  del  metodo  de  remuestreo,  que  poco  a  poco  se  filtra  en  la  econometrla  aplicada, 
nos  desviarla  mucho  del  tema.  La  idea  basica  del  remuestreo  es  agitar  (o  revolver)  una  muestra 
dada  una  y  otra  vez  y  luego  obtener  las  distribuciones  muestrales  de  los  parametros  de  interes 
(estimadores  de  MCO,  para  estos  propositos).  El  metodo  en  la  practica  se  deja  como  tema  de  con- 
sulta.52  A  proposito,  el  termino  precede  de  la  expresion  popular  “salir  adelante  por  uno  mismo”. 

El  otro  metodo  para  tratar  con  los  terminos  de  error  no  normales  es  aplicar  la  teoria  de  mues¬ 
tras  grandes,  o  asintoticas.  De  hecho,  dimos  un  vistazo  a  esto  en  el  apendice  3A.7,  en  el  capitulo 
3,  cuando  demostramos  que  los  estimadores  de  MCO  son  consistentes.  Como  analizamos  en  el 
apendice  A,  un  estimador  es  consistente  si  se  aproxima  al  valor  verdadero  del  estimador  con- 
forme  la  muestra  aumenta  cada  vez  mas  (vease  la  figura  A.  1 1 ,  en  el  apendice  A). 

Pero,  (',dc  que  sirve  eso  en  las  pruebas  de  hipotesis?  (',Es  posible  seguir  usando  las  pruebas  t 
y  FI  Se  puede  demostrar  que  segiin  los  supuestos  de  Gauss-Markov,  los  estimadores  de  MCO 
tienen  distribucion  normal  asintotica,  con  las  medias  y  varianzas  que  expusimos  en  los  capl¬ 
tulos  4  y  7. 53  Como  resultado,  las  pruebas  t  y  F  ejecutadas  segun  el  supuesto  de  normalidad  son 
aproximadamente  validas  en  muestras  grandes.  La  aproximacion  llega  a  ser  muy  buena  conforme 
aumenta  el  tamano  de  la  muestra.54 


2.  Variables  explicativas  estocasticas 

En  el  capitulo  3  introdujimos  el  modelo  clasico  de  regresion  lineal  (en  los  parametros)  sgun  cier- 
tos  supuestos  de  simplificacion.  Un  supuesto  fue  que  las  variables  explicativas,  o  regresoras,  eran 
fijas  o  no  estocasticas,  o,  si  eran  estocasticas,  eran  independientes  del  termino  de  error.  El  primer 
caso  se  denomina  caso  de  regresoras  fijas ,  y  el  segundo,  de  regresoras  aleatorias. 


52  Para  un  analisis  informal,  vease  Christopher  Z.  Mooney  y  Robert  D.  Duval,  Bootstrapping:  A  Nonparametric 
Approach  to  Statistical  inference,  Sage  University  Press,  California,  1 993.  Para  un  analisis  clasico  mas  formal, 
vease  Russell  Davidson  y  James  C.  MacKinnon,  Econometric  Theory  and  Methods,  Oxford  University  Press, 
Nueva  York,  2004,  pp.  159-166. 

53  Recuerde  los  supuestos  de  Gauss-Markov,  a  saber:  el  valor  esperado  del  termino  de  error  es  cero,  el 
termino  de  error  y  cada  una  de  las  variables  explicativas  son  independientes,  la  varianza  del  error  es 
homoscedastica  y  no  hay  autocorrelacion  en  el  termino  de  error.  Tambien  se  supone  que  la  matriz  de 
varianza-covarianza  de  las  variables  explicativas  es  finita.  Asimismo,  podemos  flexibilizar  la  condicion  de 
independencia  entre  el  termino  de  error  y  las  regresoras,  y  suponer  la  condicion  mas  debil  de  que  no  estan 
correlacionadas. 

54  La  prueba  de  la  normalidad  asintotica  de  los  estimadores  de  MCO  trasciende  el  alcance  de  este  libro. 
Vease  James  H.  Stocky  Mark  W.  Watson,  Introduction  to  Econometrics,  2a.  ed.,  Pearson/Addison  Wesley,  Bos¬ 
ton,  2007,  pp.  710-711. 
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En  el  caso  de  regresoras  fijas  ya  conocemos  las  propiedades  de  los  estimadores  de  MCO 
(veanse  los  capltulos  5  y  8).  En  el  caso  de  regresoras  aleatorias,  si  mantenemos  el  supuesto  de 
que  el  analisis  depende  de  los  valores  dados  de  las  regresoras,  las  propiedades  de  los  estimadores 
de  MCO  que  estudiamos  en  el  caso  de  las  regresoras  fijas  siguen  siendo  validas. 

Si  en  el  caso  de  regresoras  aleatorias  suponemos  que  dichas  regresoras  y  el  termino  de  error 
estan  distribuidos  de  manera  independiente,  los  estimadores  de  MCO  siguen  siendo  insesgados, 
pero  no  son  eficientes.55 

Las  cosas  se  complican  si  el  termino  de  error  no  esta  distribuido  normalmente,  o  las  regreso¬ 
ras  son  estocasticas,  o  ambas  cosas.  Aqui  es  dificil  generalizar  sobre  las  propiedades  de  muestras 
finitas  de  los  estimadores  de  MCO.  Sin  embargo,  en  ciertas  condiciones  podemos  invocar  el 
teorema  central  del  limite  para  establecer  la  normalidad  asintotica  de  los  estimadores  de  MCO. 
Aunque  estan  fuera  del  ambito  de  este  libro,  hay  demostraciones  en  otros  textos.56 


13.13  Advertencia  para  el  profesional 


Elemos  visto  una  enorme  cantidad  de  cosas  en  este  capitulo.  No  hay  duda  de  que  la  elaboration 
de  modelos  es  tanto  un  arte  como  una  ciencia.  Un  investigador  practico  quiza  se  desconcierte  por 
las  sutilezas  teoricas  y  el  conjunto  de  herramientas  de  diagnostico.  Pero  conviene  tener  en  men- 
te  la  advertencia  de  Martin  Feldstein:  “El  econometrista  aplicado,  como  el  teorico,  pronto  des- 
cubre  a  partir  de  la  experiencia  que  un  modelo  util  no  es  el  ‘verdadero’  o  ‘real’,  sino  el  escueto, 
factible  e  informativo”.57 

Peter  Kennedy,  de  la  Universidad  Simon  Fraser  de  Canada,  establece  los  siguientes  “diez 
mandamientos  de  la  econometria  aplicada”:58 

1.  Utilizaras  el  sentido  comiin  y  la  teoria  economica. 

2.  Plantearas  las  preguntas  adecuadas  (es  decir,  preferiras  la  relevancia  antes  que  la  elegancia 
matematica). 

3.  Conoceras  el  contexto  (no  haras  analisis  estadisticos  ignorantes). 

4.  Inspeccionaras  los  datos. 

5.  No  idolatraras  la  complejidad.  Utilizaras  el  principio  MSE;  es  decir,  mantener  la  simplici- 
dad  estocastica. 

6.  Veras  las  consecuencias  de  tus  resultados  y  seras  perseverante  con  ellos. 

7.  Estaras  consciente  de  los  costos  de  la  mineria  de  datos. 

8.  Estaras  dispuesto  a  comprometerte  (no  adoraras  las  prescripciones  de  los  libros  de  texto). 

9.  No  confundiras  significance  con  sustancia  (no  confundiras  la  significance  estadistica  con  la 
significance  practical. 

10.  Te  confesaras  ante  la  presencia  de  la  sensibilidad  (es  decir,  te  anticiparas  a  las  criticas). 

Tal  vez  el  lector  desee  consultar  la  totalidad  del  escrito  de  Kennedy  para  apreciar  la  conviction 
con  la  que  defiende  los  diez  mandamientos  anteriores.  Algunos  pueden  parecer  sarcasticos,  pero 
hay  mas  de  un  grano  de  verdad  en  cada  uno  de  ellos. 


55  Para  los  detalles  tecnicos,  vease  William  H.  Greene,  Econometric  Analysis,  6a.  ed.,  Pearson/Prentice-Hall, 
Nueva  Jersey,  2008,  pp.  49-50. 

56  Vease  Greene,  op.  cit. 

57  Martin  S.  Feldstein,  "Inflation,  Tax  Rules  and  Investment:  Some  Econometric  Evidence",  Econometrica,  vol. 
30,  1982,  p.  829. 

58  Peter  Kennedy,  op.  cit.,  pp.  1  7-1 8. 
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Resumen  y 
conclusiones 


1.  El  supuesto  del  MCRL  de  que  el  modelo  econometrico  del  analisis  esta  correctamente  espe- 
cificado  tiene  dos  significados.  Primero,  que  no  hay  errores  de  especificacion  ecuacionales 
y  segundo,  que  no  hay  errores  de  especificacion  de  modelo.  En  este  capltulo,  el  enfoque 
principal  fueron  los  errores  de  especificacion  ecuacionales. 

2.  Los  errores  de  especificacion  ecuacionales  analizados  en  este  capitulo  fueron:  1)  omision  de 
una(s)  variable(s)  importante(s),  2)  inclusion  de  una(s)  variable(s)  superflua(s),  3)  adopcion 
de  la  forma  funcional  equivocada,  4)  especificacion  incorrecta  del  termino  de  error  u,  y  5) 
errores  de  medicion  en  la  variable  regresada  y  en  las  regresoras. 

3 .  Cuando  se  omiten  variables  legitimas  del  modelo,  las  consecuencias  pueden  ser  muy  graves: 
los  estimadores  de  MCO  de  las  variables  consideradas  en  el  modelo  no  solo  estan  sesgados 
sino  que  tambien  son  inconsistentes.  Ademas,  las  varianzas  y  los  errores  estandar  de  estos 
coeficientes  estan  estimados  en  forma  incorrecta,  lo  que  vicia  los  procedimientos  usuales  de 
pruebas  de  hipotesis. 

4.  Afortunadamente,  las  consecuencias  de  incluir  variables  irrelevantes  en  el  modelo  son 
menos  graves:  los  estimadores  de  los  coeficientes  de  las  variables  relevantes,  al  igual  que 
los  de  las  variables  “irrelevantes”,  permanecen  insesgados  y  continuan  siendo  consistentes, 
y  la  varianza  del  error  a 2  permanece  correctamente  estimada.  El  unico  problema  es  que  las 
varianzas  estimadas  tienden  a  ser  mas  grandes  de  lo  necesario,  lo  que  resta  precision  a  la 
estimacion  de  los  parametros.  Es  decir,  los  intervalos  de  confianza  tienden  a  ser  mas  grandes 
de  lo  necesario. 

5.  Para  detectar  los  errores  de  especificacion  ecuacional  consideramos  diversas  pruebas,  como: 
1)  examen  de  residuos,  2)  estadistico  d  de  Durbin- Watson,  3)  Prueba  RESET  de  Ramsey  y 
4)  prueba  del  multiplicador  de  Lagrange. 

6.  Una  clase  especial  de  error  de  especificacion  son  los  errores  de  medicion  en  los  valores  de  la 
variable  regresada  y  de  las  regresoras.  Si  hay  errores  de  medicion  solo  en  la  variable  regre¬ 
sada,  los  estimadores  de  MCO  son  insesgados  y  consistentes,  pero  menos  eficientes.  Si  hay 
errores  de  medicion  en  las  regresoras,  los  estimadores  de  MCO  son  sesgados  e  inconsistentes. 

7.  Aunque  se  detecten  o  sospeche  de  errores  de  medicion,  a  menudo  las  medidas  correctivas  no 
son  faciles.  Las  variables  instrumentales  o  representantes  son  teoricamente  atractivas,  pero 
no  siempre  practicas.  Por  tanto,  es  muy  importante  en  la  vida  real  que  el  investigador  tenga 
cuidado  al  establecer  las  fuentes  de  su  informacion,  al  conocer  la  forma  en  que  se  obtuvo, 
sus  definiciones,  etc.  La  informacion  recolectada  por  agencias  oficiales  suele  presentarse  con 
diversas  notas  al  pie  y  el  investigador  debe  advertir  al  lector  de  su  existencia. 

8.  Los  errores  de  una  mala  especificacion  del  modelo  pueden  ser  tan  graves  como  los  errores 
de  especificacion  ecuacionales.  En  particular,  distinguimos  entre  modelos  anidados  y  no 
anidados.  Para  decidir  el  modelo  apropiado  analizamos  la  prueba  F  anidada,  o  incluyente, 
as!  como  la  prueba  J  de  Davidson-MacKinnon,  y  senalamos  las  limitaciones  de  cada  una. 

9.  Al  elegir  un  modelo  empirico  en  la  practica,  los  investigadores  utilizan  una  variedad  de  crite- 
rios,  de  los  cuales  analizamos  algunos,  como  los  de  informacion  de  Akaike  y  el  de  Schwarz, 
el  criterio  Cp  de  Mallows  y  el  pronostico  y2.  Estudiamos  las  ventajas  y  desventajas  de  estos 
criterios  y  tambien  advertimos  al  lector  que  no  eran  absolutos,  sino  complementarios  de  un 
analisis  de  especificacion  cuidadoso. 

10.  Tambien  analizamos  estos  temas  adicionales:  1)  valores  atipicos,  apalancamientos  e  influen- 
cias,  2)  minimos  cuadrados  recursivos  y  3)  prueba  de  la  falla  de  prediccion  de  Chow.  Exami- 
namos  el  papel  de  cada  uno  en  el  trabajo  aplicado. 

11.  Analizamos  brevemente  dos  casos  especiales,  a  saber,  la  no  normalidad  del  termino  de  error 
estocastico  y  las  regresoras  aleatorias,  y  la  funcion  de  la  teoria  de  muestras  grandes,  o  asin- 
toticas,  en  situaciones  en  que  no  se  pueden  establecer  las  propiedades  de  muestras  pequenas, 
o  finitas,  de  los  estimadores  de  MCO. 
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EJERCICIOS 


12.  Concluimos  con  el  estudio  de  los  “diez  mandamientos  de  la  econometrla  aplicada”,  de  Peter 
Kennedy.  La  idea  es  exigir  al  investigador  que  trascienda  los  aspectos  puramente  tecnicos  de 
la  econometrla. 


Preguntas 

13.1.  Consulte  la  funcion  de  demanda  de  polios  estimada  en  la  ecuacion  (8.6.23).  Conside- 
rando  los  atributos  de  un  buen  modelo  analizados  en  la  section  13.1,  /.puede  decir  que 
esta  funcion  de  demanda  esta  especificada  “correctamente”? 

13.2.  Suponga  que  el  verdadero  modelo  es 

Yj  —  P\Xj  +  Uj  (1) 

pero,  en  lugar  de  especificar  esta  regresion  a  traves  del  origen,  especifica  el  modelo  usual 
con  presencia  del  intercepto: 

Y,  —  a0  +  uiXj  +  Vi  (2) 

Evalue  las  consecuencias  de  este  error  de  especificacion. 

13.3.  Continue  con  el  ejercicio  13.2,  pero  suponga  que  el  modelo  (2)  es  el  verdadero.  Analice 
las  consecuencias  de  ajustar  el  modelo  mal  especificado  (1). 

13.4.  Suponga  que  el  “verdadero”  modelo  es 

Yi  —  P  i  +  PiXii  +  ut  (1) 

pero  anadimos  una  variable  “irrelevante”,  X3,  al  modelo  (irrelevante  en  el  sentido  de  que 
el  verdadero  coeficiente  fa  que  acompana  a  la  variable  X2  es  cero)  y  estime 

Yj  —  Pi  +  P2X21  +  PlXy  +  V(  (2) 

a )  LR2  y  R2  ajustada  para  el  modelo  (2)  serian  mas  grandes  que  las  del  modelo  (1)? 

b )  ^Las  estimaciones  de  fi\  y  obtenidas  de  (2)  son  insesgadas? 

c)  ^La  inclusion  de  la  variable  “irrelevante”  X3  afecta  las  varianzas  de  P\  y  P2 ? 

13.5.  Considere  la  siguiente  funcion  de  produccion  (Cobb-Douglas)  “verdadera”: 

In  Yj  —  ao  +  ai  In L y  +  0,2  In  Lii  +  0:3  In  Kj  +  ut 

donde  Y  =  produccion 

L\  —  trabajo  contenido  en  la  produccion 
L2  —  trabajo  no  contenido  en  la  produccion 
K  —  capital 

Pero  suponga  que  la  regresion  realmente  utilizada  en  la  investigacion  empirica  es 
In  Yi  =  p0  +  Pi  In  R 1/  +  Pi  In  Ki  +  u, 

Conforme  al  supuesto  de  que  tiene  informacion  de  corte  transversal  sobre  las  variables 
relevantes, 

a)  iSemE(P\)  =  ai  y  E(p2)  =  a3? 

b)  Si  se  sabe  que  L2  es  un  insumo  irrelevante  en  la  funcion  de  produccion,  (',aiin  es  valida 
la  respuesta  en  a)?  Muestre  las  derivaciones  necesarias. 

13.6.  Consulte  las  ecuaciones  (13.3.4)  y  (13.3.5).  Como  se  ve,  a2,  aunque  sesgada,  tiene  una 
varianza  menor  que  p2,  que  es  insesgada. ;  Como  decidiria  respecto  de  un  intercambio  de 
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un  sesgo  por  una  varianza  pequena?  Sugerencia:  El  ECM  (error  cuadratico  medio)  para 
los  dos  estimadores  se  expresa  como 


ECM(«2)  =  (tf2/£4)  +  #*32 


=  varianza  muestral  +  sesgo  al  cuadrado 


ECM(&)  =  <t2/J>22(1  -r223) 


Respecto  de  ECM,  vease  el  apendice  A. 

13.7.  Muestre  que  el  p  estimado  de  (13.5.1)  o  (13.5.3)  constituye  una  estimation  insesgada  del 


verdadero  p. 

13.8.  Segun  la  hipotesis  de  ingreso  permanente  de  Friedman,  podemos  escribir 


Y*  =  a  +  PX* 


0) 


donde  Y*  =  gasto  de  consumo  “permanente”  y  X*  —  ingreso  “permanente”.  En  lugar  de 
las  variables  “permanentes”,  observamos 


donde  Yt  y  X,  son  las  cantidades  observables  o  mensurables,  y  donde  u,  y  v,  son  los  errores 
de  medicion  en  Y*  y  X*,  respectivamente. 

Con  las  cantidades  observables,  escribimos  la  funcion  de  consumo  como 


Yj  —  a  +  P(X,  -  v,)  +  Uj 

—  of  +  pXj  +  (iii  —  Pvt) 


(2) 


Si  suponemos  que  1 )  E(m)  —  E(vt)  —  0, 2)  var  (u,)  —  rxj  y  var  (v,)  =  3)  cov(y*,  m,)  = 

0,  cov(X*,  v,)  =  0,  y  4)  co v(m,,  XT)  —  cov(v,,  Y*)  —  cov(m„  v,)  =  0,  demuestre  que,  en 
muestras  grandes,  el  p  estimado  de  (2)  se  expresa  como 


a)  ^Que  puede  decir  sobre  la  naturaleza  del  sesgo  en  pi 

b)  Si  el  tamano  de  la  muestra  aumenta  indefinidamente,  tend  era  el  P  estimado  a  igualar 


el  p  verdadero? 


13.9.  Modelo  de  asignacion  de precios  de  activos  de  capital.  El  modelo  de  asignacion  de  pre- 
cios  de  activos  de  capital  (CAPM)  de  la  teoria  de  inversion  moderna  postula  la  siguiente 
relacion  entre  la  tasa  de  rendimiento  promedio  de  un  valor  (una  accion  comun),  medida 
durante  un  determinado  periodo,  y  la  volatilidad  del  tltulo,  relacion  denominada  coefi- 
ciente  Beta  (la  volatilidad  es  una  medida  del  riesgo): 


Ri  —  Qti  +  0(2  (Pi)  +  Ui 


(1) 


donde  R,  =  tasa  de  rendimiento  promedio  del  valor  i 
Pi  —  coeficiente  Beta  verdadero  del  valor  i 
Ui  —  termino  de  perturbacion  estocastico 


La  verdadera  /J,  no  es  directamente  observable  pero  se  mide  de  la  siguiente  manera: 


ru  —  «t  +  P*rm,  +  e, 


(2) 
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donde  rlt  —  tasa  de  rendimiento  del  valor  i  durante  el  tiempo  / 

rmt  —  tasa  de  rendimiento  del  mercado  durante  el  tiempo  t  (esta  tasa  es  la  tasa  de 
rendimiento  sobre  algun  indice  general  del  mercado,  como  el  indice  S&P 
de  valores  industrials) 
e,  —  termino  de  residuos 

y  donde  p*  es  una  estimacion  del  “verdadero”  coeficiente  beta.  En  la  practica,  por  consi- 
guiente,  en  lugar  de  estimar  (1),  se  estima 


Ri  —  a  i  +  a2(P*)  +  Ui 


(3) 


donde  las  ft*  se  obtienen  de  la  regresion  (2).  Pero,  como  las  ft*  son  estimadas,  la  relation 
entre  la  verdadera  P  y  ft*  se  escribe  asi 


(4) 


donde  v,-  se  denomina  error  de  medicion. 

a )  ^Cual  sera  el  efecto  de  este  error  de  medicion  sobre  la  estimacion  de  a 2? 

b)  ^El  a2  estimado  de  (3)  proporcionara  una  estimacion  insesgada  del  verdadero  a2l 
De  no  ser  asi,  pes  esta  una  estimacion  consistente  de  «2?  De  no  ser  asi,  <',quc  medidas 
correctivas  sugiere? 

13.10.  Considere  el  modelo 


Yi  —  Pi  +  PiXii  +  Hi 


(1) 


Para  averiguar  si  este  modelo  esta  mal  especificado  porque  omite  la  variable  X2,  decide 
efectuar  la  regresion  de  los  residuos  obtenidos  del  modelo  (1)  solo  sobre  la  variable^ 
( Nota :  Hay  un  intercepto  en  esta  regresion.)  La  prueba  del  multiplicador  de  Lagrange 
(ML),  sin  embargo,  requiere  la  regresion  de  los  residuos  de  (1)  sobre  X2,  X3  y  una  cons- 
tante.  (',Por  que  es  probable  que  su  procedimiento  sea  inapropiado?* 

13.11.  Considere  el  modelo 


Yi  =  Pi  +  P2X*  +  Ui 


En  la  practica,  medimos  X*  mediante  X,  de  manera  que 

a)  Xt  =  X*  +  5 

b)  X,  =  3X* 

c)  Xj  —  (X*  +  ep,  donde  e,  es  un  termino  puramente  aleatorio  con  las  propiedades  usuales. 
pCual  sera  el  efecto  de  estos  errores  de  medicion  sobre  las  estimaciones  de  los  verdaderos 

P\  y  PtP 

13.12.  Consulte  las  ecuaciones  de  regresion  (13.3.1)  y  (13.3.2).  En  forma  similar  a  (13.3.3), 
demuestre  que 


E{ax)  =  px  +  p3(X3  -  b32X2) 


donde  b2  2  es  el  coeficiente  de  pendiente  en  la  regresion  de  la  variable  omitida  A3  sobre  la 
variable  incluida  X2. 


13.13.  Evalue  de  manera  critica  el  siguiente  punto  de  vista,  de  Learner:1' 


*Vease  Maddala,  op.  at.,  p.  477. 

t  Edward  E.  Learner,  Specification  Searches:  Ad  Hoc  Inference  with  Nonexperimental  Data,  John  Wiley  &  Sons, 
Nueva  York,  1978,  p.  vi. 
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Mi  interes  en  la  metaestadistica  [es  decir,  en  la  teorla  de  la  inferencia  obtenida  realmente  de 
los  datos]  surge  de  mis  observaciones  del  trabajo  de  los  economistas.  La  opinion  de  que  la 
teoria  econometrica  es  irrelevante  la  sostiene  una  enorme  y  vergonzosa  cantidad  de  profe- 
sionales  de  la  economia.  Es  de  esperarse  que  el  enorme  abismo  entre  la  teoria  y  la  practica 
de  la  econometria  provoque  tensiones  profesionales.  De  hecho,  un  balance  ecuanime  permea 
nuestras  publicaciones  y  nuestras  reuniones.  Nos  dividimos  comodamente  en  un  sacerdocio 
celibe  de  teoricos  estadisticos,  por  una  parte,  y  una  legion  de  incorregibles  pecadores  ana- 
listas  de  datos,  por  otra.  Los  sacerdotes  tienen  el  poder  de  elaborar  listas  de  pecados  y  son 
reverenciados  por  los  talentos  especiales  que  ostentan.  No  se  espera  que  los  pecadores  dejen 
de  pecar,  solo  se  necesita  que  confiesen  sus  errores  publicamente. 

13.14.  Evalue  la  siguiente  afirmacion  de  Henry  Theil:* 

En  el  actual  nivel  tecnico,  el  procedimiento  mas  sensible  es  interpretar  los  coeficientes  de 
confianza  y  los  limites  de  significancia  de  manera  liberal,  cuando  los  intervalos  de  confianza 
y  los  estadisticos  de  prueba  se  calculan  a  partir  de  la  regresion  final  de  una  estrategia  de 
regresion,  en  forma  convencional.  Es  decir,  un  coeficiente  a  95%  de  confianza  en  realidad 
puede  ser  un  coeficiente  a  80%  de  confianza,  y  un  nivel  de  significancia  de  1%  de  en  reali¬ 
dad  puede  ser  de  10  por  ciento. 

13.15.  A1  comentar  la  metodologia  econometrica  practicada  en  la  decada  de  1950  y  principios 
de  la  siguiente,  Blaug  cxpreso:  ' 

. .  .  gran  parte  de  esta  [la  investigation  empirica]  se  asemeja  a  jugar  tenis  con  la  red  abajo;  en 
lugar  de  refutar  las  predicciones  que  pueden  probarse,  los  economistas  modernos  con  dema- 
siada  frecuencia  se  contentan  con  demostrar  que  el  mundo  real  se  ajusta  a  sus  predicciones, 
con  lo  que  remplazan  asi  la  falsification  [al  estilo  Popper],  la  cual  es  complicada,  con  la 
verification,  que  es  muy  sencilla. 

<,Esta  de  acuerdo  con  lo  anterior?  Quiza  desee  consultar  la  obra  de  Blaug  para  conocer 
mas  sus  puntos  de  vista. 

13.16.  De  acuerdo  con  Blaug,  “No  hay  logica  para  la  prueba,  pero  si  la  hay  en  la  refutation”.* 
(',Quc  quiso  decir? 

13.17.  Consulte  el  modelo  de  St.  Louis  analizado  en  el  texto.  Tenga  en  cuenta  los  problemas  re- 
lacionados  con  la  prueba  F  anidada  y  evalue  de  manera  critica  los  resultados  presentados 
en  la  regresion  (13.8.4). 

13.18.  Suponga  que  el  modelo  verdadero  es 

Y,  =  Pi  +  thX,  +  foXj  +  foX]  +  Ui 

pero  estima 

Y,  —  +  a2Xj  +  Vi 

Si  utiliza  las  observaciones  de  Ye. nX—  —3,  —2,  —1,0,  1,  2,  3,  y  estima  el  modelo  “in- 
correcto”,  /,que  sesgo  se  obtendra  en  estas  cstimaciones?5 

13.19.  Para  saber  si  la  variable  Xj  pertenece  al  modelo  Yt  =  +  fi2X,  +  m,  la  prueba  RESET 

de  Ramsey  estimaria  el  modelo  lineal  para  obtener  la  estimation  de  los  valores  T,  de 
este  modelo  [es  decir,  Y,  =  +  ft2 Xi\,  despues  estimaria  el  modelo  Yt  =  a i  +  a2Xt  + 

a2Yf  +  Vi  y  luego  probaria  la  significancia  de  a2.  Demuestre  que  si  a2  resulta  estadisti- 
camente  significativa  en  la  ecuacion  anterior  (RESET),  equivale  a  estimar  el  siguiente 


*  Henry  Theil,  Principles  of  Econometrics,  John  Wiley  &  Sons,  Nueva  York,  1 971,  pp.  605-606. 

t  M.  Blaug,  The  Methodology  of  Economics.  Or  How  Economists  Explain,  Cambridge  University  Press,  Nueva 
York,  1 980,  p.  256. 

*  Ibid.,  p.  14. 

5  Adaptado  de  C.A.F.,  Linear  Regression  Analysis,  John  Wiley  &  Sons,  Nueva  York,  1 977,  p.  1  76. 
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modelo  de  manera  directa:  Y  =  fo  +  fo Xt  +  foXj  +  u,.  ( Sugerencia :  Sustituya  por  Y 

en  la  regresion  RESET.)* 

13.20.  Fundamente  con  argumentos  si  los  siguientes  enunciados  son  verdaderos  o  fa  Isos.1 

a)  Una  observacion  puede  ser  influyente  pero  no  ser  un  valor  atipico. 

b )  Una  observacion  puede  ser  un  valor  atipico,  pero  no  ser  influyente. 

c)  Una  observacion  puede  ser  un  valor  atipico  e  influyente. 

d)  Si  el  modelo  Y  =  fo  +  foX,  +  foXj  +  3  resulta  estadisticamente  significativo, 

se  debe  conservar  el  termino  lineal  X,  aunque  fo  sea  estadisticamente  insignificante. 

e )  Si  estima  el  modelo  Y  =  fo  +  ($2X21  +  foXy  +  ip  o  Y  =  ai  +  fox2i  +  foxy  +  w,- 
mediante  MCO,  la  linea  de  regresion  estimada  es  la  misma,  donde  ( X2,  —  X2)  y 
xy  —  (Xy  —  X3). 


Ejercicios  empiricos 

13.21.  Utilice  la  informacion  de  la  demanda  de  polios  del  ejercicio  7.19.  Suponga  que  la  verda- 
dera  funcion  de  demanda  es 

In  Y  =  fo  +  fo  In  X2 1  +  fo  In  Xy  +  fo  In  Xfy  +  ut  (1 ) 

pero  considera  la  siguiente  funcion  de  demanda: 

In  Y  =  a\  +  a2  In  X2,  +  0:3  In  Xy  +  v,  (2) 

donde  Y  —  consumo  de  polios  per  capita  (en  libras) 

X2  —  ingreso  real  disponible  per  capita 

X3  =  precio  real  de  los  polios  al  menudeo 

X(,  —  precio  real  compuesto  de  los  sustitutos  del  polio 

a)  Realice  las  pruebas  RESET  y  ML  de  errores  de  especificadon,  suponiendo  que  la 
funcion  de  demanda  (1)  dada  es  la  verdadera. 

b)  Suponga  que  fo  en  (1)  resulta  estadisticamente  no  significativa.  ,',Indica  esto  que  no 
hay  error  de  especificadon  si  se  ajusta  (2)  a  la  informacion? 

c)  Si  fo  resulta  no  significativa,  ^indica  eso  que  no  se  debe  introducir  el  precio  de  uno  o 
mas  productos  sustitutos  como  argumento  en  la  funcion  de  demanda? 

13.22.  Continue  con  el  ejercicio  13.21.  Estrictamente  por  razones  pedagogicas,  suponga  que  el 
modelo  (2)  es  la  verdadera  funcion  de  demanda. 

a)  Si  ahora  estimamos  el  modelo  (1),  (',quc  tipo  de  error  de  especificadon  se  comete  en 
esta  instancia? 

b)  qCualcs  son  las  consecuencias  teoricas  de  este  error  de  especificadon?  Ilustre  con  la 
informacion  disponible. 

13.23.  El  verdadero  modelo  es 


Y*  =  fo  +  foX*  +  Ui  (1) 

pero,  debido  a  errores  de  medicion,  estima 

Y  =  “1  +  a2  Xj  +  Vj  (2) 

donde  Y  =  Y*  +  e,-  y  Xt  —  X*  +  w„  donde  e,-  y  vw,-  son  errores  de  medicion. 


*Adaptado  de  Kerry  Peterson,  op.  cit.,  pp.  184-185. 

* Adaptado  de  Norman  R.  Drapery  Harry  Smith,  op.  cit.,  pp.  606-607. 
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Con  la  informacion  de  la  tabla  13.2,  evaliie  las  consecuencias  de  estimar  (2)  en  lugar 
del  verdadero  modelo  (1). 

13.24.  Experimento  Monte  Carlo:*  Diez  personas  percibieron  el  siguiente  ingreso  permanen- 
te  semanal:  $200,  220,  240,  260,  280,  300,  320,  340,  380  y  400.  El  consumo  perma- 
nente  (Y*)  estuvo  relacionado  con  el  ingreso  permanente,  X*,  as! 

Y*  =  0.8X*  (1) 

Cada  individuo  tuvo  un  ingreso  transitorio  igual  a  100  veces  un  numero  aleatorio  u„  ob- 
tenido  de  una  poblacion  normal  con  media  =  0  y  a2  =  1  (es  decir,  una  variable  normal 
estandarizada).  Suponga  que  no  hay  un  componente  transitorio  en  el  consumo.  Asi,  el 
consumo  medido  y  el  consumo  permanente  son  los  mismos. 

a)  Seleccione  10  numeros  aleatorios  de  una  poblacion  normal  con  media  cero  y  varianza 
unitaria,  y  obtenga  10  numeros  para  el  ingreso  medido  X,(  —  X*  +  100m,). 

b)  Efectue  la  regresion  del  consumo  permanente  (=  medido)  sobre  el  ingreso  medido 
con  la  informacion  obtenida  en  a)  y  compare  los  resultados  con  los  que  aparecen  en 
(1).  A  priori,  el  intercepto  debe  ser  cero  Cpor  que?)  ,',Es  ese  el  caso?  ^Por  que? 

c)  Repita  a)  100  veces,  obtenga  100  regresiones  como  las  de  b)  y  compare  los  resultados 
con  la  verdadera  regresion  (1).  ,',Quc  conclusiones  generales  obtiene? 

13.25.  Consulte  el  ejercicio  8.26.  Con  las  definiciones  de  las  variables  dadas  ahl,  considere  los 
dos  modelos  siguientes  para  explicar  Y: 

Modelo  A:  Y,  —  a i  +  0:2^3?  +  a 3X4 ,  +  +  u, 

Modelo  B:  Y,  —  P\  +  P2X2 1  +  PiXst  +  P^Xet  +  n, 

Con  la  prueba  F  anidada,  icomo  elegiria  alguno  de  los  dos  modelos? 

13.26.  Continue  con  el  ejercicio  13.25.  Con  la  prueba  J,  (',c6mo  escogeria  alguno  de  los  dos 
modelos? 

13.27.  Consulte  el  ejercicio  7.19,  que  analiza  la  demanda  de  polio  en  Estados  Unidos.  Ahl  se  dan 
cinco  modelos. 

a)  ^Cual  es  la  diferencia  entre  el  modelo  1  y  el  2?  Si  el  modelo  2  es  correcto  y  estima  el 
modelo  1,  ^que  tipo  de  error  comete?  <^Que  pruebas  aplicaria:  para  el  error  de  espe- 
cificacion  de  ecuacion,  o  para  el  error  de  seleccion  de  modelo?  Muestre  los  calculos 
necesarios. 

b )  Entre  los  modelos  1  y  5,  ,',cual  elegiria?  ^Que  prueba(s)  aplicaria(n)  y  por  que? 

13.28.  Consulte  la  tabla  8.11,  que  proporciona  informacion  sobre  los  ahorros  personales  (Y )y 
el  ingreso  personal  disponible  ( X )  de  1970  a  2005.  Ahora  considere  los  siguientes  mo¬ 
delos: 


Modelo  A:  Y,  —  a. \  +  0L2X ,  +  ciT,Xt-\  +  u, 

Modelo  B:  Y,  —  /h  +  P2X1  +  P^Yt—  1  +  ut 

^Como  eligiria  alguno  de  los  dos  modelos?  Establezca  con  claridad  el  (los)  procedimien- 
to(s)  de  prueba  que  utilice  y  muestre  todos  los  calculos.  Suponga  que  se  cuestiona  que  la 
variable  tasa  de  interes  pertenece  a  la  funcion  ahorro:  ,',061110  probarla  eso?  Recopile  los 
datos  de  la  tasa  de  interes  para  bonos  del  tesoro  a  tres  meses  como  un  representante  de 
los  intereses  y  justifique  su  respuesta. 


*  Adaptado  de  Christopher  Dougherty,  Introduction  to  Econometrics,  Oxford  University  Press,  Nueva  York, 
1992,  pp.  253-256. 
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13.29.  Utilice  los  datos  del  ejercicio  13.28.  Para  familiarizarse  con  los  minimos  cuadrados  recur- 
sivos,  calcule  las  funciones  ahorro  de  1970-1981,  1970-1985,  1970-1990  y  1970-1995. 
Comente  la  estabilidad  de  los  coeficientes  estimados  en  las  funciones  ahorro. 

13.30.  Continue  con  el  ejercicio  13.29,  pero  ahora  use  los  datos  actualizados  de  la  tabla  8.10. 

a)  Suponga  que  estima  la  funcion  de  ahorro  de  1970-1981.  Con  los  parametros  asi 
estimados  y  los  datos  del  ingreso  personal  disponible  de  1982-2000,  estime  el 
ahorro  pronosticado  para  el  segundo  periodo  y  use  la  prueba  de  falla  de  prediccion 
de  Chow  para  averiguar  si  se  rechaza  la  hipotesis  de  que  la  funcion  de  ahorro  entre  los 
dos  periodos  no  ha  cambiado. 

b )  Ahora  estime  la  funcion  de  ahorro  de  los  datos  de  2000-2005.  Compare  los  resultados 
con  la  funcion  correspondiente  al  periodo  1982-2000  mediante  el  mismo  metodo  que 
en  el  inciso  anterior  (la  prueba  de  falla  de  prediccion  de  Chow).  (',Hay  algun  cambio 
significative  en  la  funcion  de  ahorro  entre  los  dos  periodos? 

13.3 1 .  Omision  de  una  variable  en  el  modelo  de  regresion  con  K  variables.  Consulte  la  ecuacion 
(13.3.3),  que  muestra  el  sesgo  por  omitir  la  variable  Aj  del  modelo  Yt  =  ft  +  ftA2 ;  + 
ft  A3;  +  Uj.  Esto  se  generaliza  de  la  siguiente  forma:  en  el  modelo  con  k  variables,  Y,  — 
ft  +  ftA2;  +  •  ■  ■  +  PkXki  +  Ui,  suponga  que  omitimos  la  variable  A*.  Entonces,  es  po- 
sible  demostrar  que  el  sesgo  de  la  variable  omitida  que  corresponde  al  coeficiente  de  la 
pendiente  para  la  variable  incluida  Xj  es: 

ftft)  —  Pj  +  Pkhj  7=2,  3,...,(k-  1) 

donde  by  es  el  coeficiente  de  la  pendiente  (parcial)  de  Xj  en  la  regresion  auxiliar  de  la 
variable  excluida  X^  sobre  todas  las  variables  explicativas  incluidas  en  el  modelo.* 
Consulte  el  ejercicio  13.21.  Obtenga  el  sesgo  de  los  coeficientes  en  la  ecuacion  (1)  si 
excluimos  la  variable  In  X()  del  modelo.  (',Esta  exclusion  es  grave?  Muestre  los  calculos 
necesarios. 


Apendice  1  3A 


13A.1  Prueba  de  que  £(bi  2)  = /^2  +  ^3^32 
[ecuacion  (13.3.3)] 

En  la  forma  de  desviacion,  el  modelo  de  regresion  de  poblacion  con  tres  variables  se  expresa 

y\  =  PiX2i  +  PiXii  +  ( Uj  -  u) 

Si  primero  se  multiplica  por  x2  y  luego  por  x3,  las  ecuaciones  normales  usuales  son: 

'Y^yiXn  =  P2  xl  +  ft  YX2iX3i  +  YX2,(Ul  ~ 

Yy'X3i  =  P2Yx2iX3i + ft  Yxi i +  YX3'(Ui  _ 


Al  dividir  (2)  entre  J2  x\  en  ambos  lados,  obtenemos 


T,y-X2i 


=  ft  +  ft 


T.X2iX3i  ,  T.X2  i(Ui~u) 


E  4  E4  '  E4 


0) 

(2) 

(3) 

(4) 


*  Lo  anterior  se  generaliza  al  caso  en  el  que  mas  de  una  variable  X  relevante  este  excluida  del  modelo.  Sobre 
este  tema,  vease  Chandan  Mukherjee  et  al.,  op.  cit.,  p.  215. 
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Ahora,  si  recuerda  que 


la  ecuacion  (4)  se  expresa  como 


b\2 


E.v'x2i 

E4 


b  3  2 


Ex2ix3i 

Exi¬ 


t’ll  =fo+  Pib^i  + 


EX2i(ui  -  u) 


Exl 

Si  toma  el  valor  esperado  de  (5)  en  ambos  lados,  obtenemos  finalmente 

E(b  12)  =  02  +  Phbn 


(5) 


(6) 


donde  se  aprovecha  que:  a)  para  una  muestra  dada,  b22  es  una  cantidad  fija  conocida,  b)  /32  y  son  cons- 
tantes  y  c)  «,•  no  esta  correlacionada  con  X2 ,■  fni  tampoco  con  X3i). 


13A.2  Consecuencias  de  la  inclusion  de  una  variable 
irrelevante:  propiedad  de  insesgamiento 

Para  el  verdadero  modelo  (13.3.6),  tenemos 


h 


Eyx  2 

E4 


0) 


y  sabemos  que  es  insesgado. 

Para  el  modelo  (13.3.7)  obtenemos 

(Ep*2)(Ex?)  -  (E.y*3)(E*2X3)  ^ 

EX\  E4  ~  (E*2X3) 

Ahora  el  verdadero  modelo  en  forma  de  desviacion  es 


yt  =  P2X2  +  (u,  -  u)  (3) 

A1  sustituir  paray,-  de  (3)  en  (2)  y  simplificar,  obtenemos 

E*22E*3  -  (l>2X3) 

E(a  2)  =  P2 - ) - (j  (4) 

E  x2  E  x3  ~  (Ex2X3) 


=  h 


es  decir,  a2  permanece  insesgado. 
Tambien  obtenemos 


(Ep*3)(e*22)-(e  yx2  *2*3  ) 

ExlExl~  (e*2*3) 


a3  = 


(5) 
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A1  sustituir  para  de  (3)  en  (5)  y  simplificar,  obtenemos 


E(&3) 


[(£*2As) 

(E4) 

l-l 

(e*2*3) 

M] 

E- 

*2  E*3 

[E*  2*3) 

2 

=  0 


el  cual  es  su  valor  en  el  verdadero  modelo,  pues  X3  esta  ausente  de  dicho  modelo. 


(6) 


13A.3  Prueba  de  la  ecuacion  (13.5.10) 


Tenemos 


Y  =  a  +  pX*  +  Ui 

0) 

X,  =  X*  +  Wi 

(2) 

Por  consiguiente,  en  la  forma  de  desviacion,  obtenemos 

yi  =  Px*  +  (ui  -  u) 

(3) 

Xi  =  X*  +  (Wi  -  w) 

(4) 

Ahora,  cuando  utilizamos 

Yi=oc  +  pXi  +  Ui 

(5) 

obtenemos 

s  Ep* 

 E [PX*  +  (« 

-«)][** +  (w-w)]  ,,, 

.  ,  -,l2  con  (3)  y  (4) 

P  E**2  +  P  Ex*(w  —  w)  +  EX*(M  —  m)  +  E(M  —  «)(w  —  w) 

E  x*2  +  2  E  x*(w  —  w)  +  E(w  —  w)2 


Como  no  podemos  tomar  la  esperanza  de  esta  expresion  porque  la  esperanza  de  la  razon  de  dos  variables 
no  es  igual  a  la  razon  de  sus  esperanzas  (nota:  el  operador  de  esperanzas  E  es  un  operador  lineal),  primero 
dividimos  cada  termino  del  numerador  y  del  denominador  entre  n  y  obtenemos  la  probabilidad  del  llmite, 
pllm  (veanse  los  detalles  de  pllm  en  el  apendice  A),  de 


( 1  /»)  [P  E  **2  +  P  E  **Q  ~  w)  +  E  **(»  -  u)  +  E(“  -  »)Q  ~  *0] 

( i  /«)  [52  x*2  +  2  52  x*(w  —  w)  +  E(w  —  w)2] 


Ahora,  la  probabilidad  del  llmite  de  la  razon  de  dos  variables  es  la  razon  de  sus  probabilidades  del  llmite.  A1 
aplicar  esta  regia  y  tomar  el  pllm  de  cada  termino,  obtenemos 


pllm /l  = 


Pal 


+  °u 


donde  cr^»  y  a2  son  las  varianzas  de  X*  y  w  a  medida  que  el  tamano  de  la  muestra  aumenta  indefinida- 
mente  y  donde  aprovechamos  que,  a  medida  que  el  tamano  de  la  muestra  aumenta  indefinidamente,  no  hay 
correlacion  entre  los  errores  u  y  w  ni  entre  ellos  y  la  verdadera  X*.  De  la  expresion  anterior,  finalmente 
obtenemos 


pllm  p  =  p 


1  + 


que  es  el  resultado  requerido. 
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13A.4  Prueba  de  la  ecuacion  (13.6.2) 


Como  no  hay  termino  de  intercepto  en  el  modelo,  la  estimation  para  a,  de  acuerdo  con  la  formula  para  la 
regresion  a  traves  del  origen,  es  como  sigue: 


a-E-V/* 

A1  sustituir  por  Y del  verdadero  modelo  (13.2.8),  obtenemos 

„  Y.XiiPXiUi)  TXfUi 

“  T,xj  ^  T.xj 

La  teorla  estadlstica  muestra  que  si  In  «,■  ~  N( 0,  a2),  entonces 

Ui  =  lognormal  [V7^2,  e°2  (e^-1  j j 


Por  tanto, 


E(&)  =  fiE 


=  P\E 


HXfuj  \ 

^xf) 

^X^U\  +  X^U2  +  *  *  *  +  Xnun) 


=^2/2(§§\=^z/2 


0) 


(2) 


(3) 


donde  se  aprovecha  que  las  X  son  no  estadlsticas  y  cada  ut  tiene  un  valor  esperado  de  e'7^2. 
Como£(a)  ^  P,  a  es  un  estimador  sesgado  de  p. 


Temas  de 
econometria 


En  la  parte  1  introdujimos  el  modelo  clasico  de  regresion  lineal  con  todos  sus  supuestos.  En  la 
parte  2  examinamos  en  detalle  las  consecuencias  de  no  satisfacer  uno  o  mas  supuestos  y  lo  que 
puede  hacerse  al  respecto.  En  la  parte  3  estudiaremos  algunas  tecnicas  econometricas  selec- 
cionadas  pero  muy  comunes.  En  particular,  analizaremos  estos  temas:  1)  modelos  de  regresion 
no  lineales  en  los  parametros,  2)  modelos  de  regresion  con  respuesta  cualitativa,  3)  modelos  de 
regresion  con  datos  de  paneles  y  4)  modelos  econometricos  dinamicos. 

En  el  capitulo  14  consideramos  modelos  intrinsecamente  no  lineales  en  los  parametros.  Con 
la  actual  disponibilidad  de  paquetes  de  software,  ya  no  es  muy  dificil  estimar  tales  modelos.  Aun- 
que  el  fundamento  matematico  puede  ser  complejo  para  ciertos  lectores,  las  ideas  basicas  de  los 
modelos  de  regresion  no  lineales  en  los  parametros  se  comprenden  por  intuition.  Con  ejemplos 
adecuados,  este  capitulo  muestra  como  estimar  e  interpretar  estos  modelos. 

En  el  capitulo  15  analizaremos  los  modelos  de  regresion  en  los  que  la  variable  dependiente 
es  cualitativa  por  naturaleza.  Este  capitulo,  por  tanto,  complementa  al  9,  en  el  cual  estudiamos 
los  modelos  en  que  la  naturaleza  de  las  variables  explicativas  era  cualitativa.  La  idea  central  de 
este  capitulo  es  el  desarrollo  de  modelos  con  la  variable  regresada  del  tipo  si  o  no.  Como  los  mi- 
nimos  cuadrados  ordinarios  (MCO)  plantean  diversos  problemas  para  estimar  tales  modelos,  se 
han  elaborado  diversas  opciones.  En  este  capitulo  examinamos  dos  de  ellas,  a  saber:  el  modelo 
logit  y  el  modelo  probit.  En  este  capitulo  tambien  analizamos  diversas  variantes  de  los  modelos 
con  respuesta  cualitativa,  como  el  modelo  tobit  y  el  modelo  de  regresion  de  Poisson.  Ademas, 
estudiaremos  brevemente  varias  extensiones  de  los  modelos  con  respuesta  cualitativa,  como  los 
modelos  probit  ordenado,  logit  ordenado  y  logit  multinomial. 

En  el  capitulo  16  veremos  los  modelos  de  regresion  con  datos  de  paneles.  Tales  modelos 
combinan  las  series  de  tiempo  y  las  observaciones  transversales.  Aunque  al  combinar  las  men- 
cionadas  observaciones  se  incrementa  el  tamano  de  la  muestra,  la  estimation  de  los  modelos 
de  regresion  con  datos  de  paneles  plantea  diversos  retos.  En  este  capitulo  estudiaremos  solo  lo 
esencial  de  estos  modelos  y  guiaremos  al  lector  hacia  los  recursos  adecuados  para  un  estudio 
posterior. 

En  el  capitulo  17  consideraremos  los  modelos  de  regresion  con  valores  de  las  variables  ex¬ 
plicativas  para  el  periodo  actual,  lo  mismo  que  para  periodos  pasados  o  rezagados,  ademas  de 
modelos  que  incluyen  uno  o  varios  valores  rezagados  de  la  variable  dependiente  como  una  de  las 
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variables  explicativas.  Estos  modelos  se  denominan,  respectivamente,  de  rezago  distribuido  y 
autorregresivos.  Aunque  tales  modelos  son  muy  utiles  en  la  econometria  empirica,  su  aplicacion 
conlleva  algunos  problemas  especiales  de  estimacion,  pues  violan  uno  o  mas  supuestos  del  mo- 
delo  clasico  de  regresion  lineal.  Consideraremos  estos  problemas  especiales  en  el  contexto  de  los 
modelos  de  Koyck,  de  expectativas  adaptables  (EA)  y  de  ajuste  parcial.  Tambien  abordaremos  las 
criticas  contra  el  modelo  EA  por  parte  de  los  defensores  de  la  llamada  escuela  de  expectati¬ 
vas  racionales  (ER). 


Capitulo 


Modelos  de  regresion 
no  lineales 


Este  libro  se  centra,  sobre  todo,  en  los  modelos  de  regresion  lineal;  es  decir,  modelos  lineales  en 
los  parametros  o  que  pueden  transformarse  para  que  lo  sean.  Sin  embargo,  en  ciertas  ocasiones, 
por  razones  teoricas  o  empiricas,  debemos  considerar  modelos  que  no  son  lineales  en  los  parame¬ 
tros.1  En  este  capitulo  analizaremos  tales  modelos  y  estudiaremos  sus  caracteristicas  especiales. 


14.1  Modelos  de  regresion  intrmsecamente  lineales 
e  intrmsecamente  no  lineales 


Cuando  comenzamos  el  analisis  de  los  modelos  de  regresion  lineal  en  el  capitulo  2,  establecimos 
que  la  principal  preocupacion  en  este  libro  son  sobre  todo  los  modelos  lineales  en  los  parametros 
pero  que  pueden  ser  o  no  lineales  en  las  variables.  Si  consulta  la  tabla  2.3,  vera  que  un  modelo 
lineal  en  los  parametros  y  en  las  variables  es  un  modelo  de  regresion  lineal,  de  igual  forma  que 
lo  es  un  modelo  lineal  en  los  parametros  pero  no  lineal  en  las  variables.  Por  otro  lado,  si  un  mo¬ 
delo  es  no  lineal  en  los  parametros,  se  trata  de  un  modelo  de  regresion  no  lineal  (en  los  parame¬ 
tros),  sin  importar  que  las  variables  de  tal  modelo  sean  lineales  o  no. 

Sin  embargo,  debe  tener  cuidado,  pues  algunos  modelos  pueden  parecer  no  lineales  en  los 
parametros  pero  ser  inherente  o  intrmsecamente  lineales,  debido  a  que  con  una  transformacion 
adecuada  pueden  convertirse  en  modelos  de  regresion  lineales  en  los  parametros.  Pero  si  dichos 
modelos  no  pueden  linealizarse  en  los  parametros,  se  les  conoce  como  modelos  de  regresion 
intrmsecamente  no  lineales.  A  partir  de  aqui,  cuando  hablemos  de  modelos  de  regresion  no 
lineales,  se  trata  de  modelos  intrmsecamente  no  lineales.  Por  brevedad  los  denominaremos 
MRNL. 

Para  que  resulte  clara  la  distincion  entre  ambos  modelos,  revisemos  los  ejercicios  2.6  y  2.7. 
En  el  primero,  los  modelos  a,  b,  c  y  e  son  modelos  de  regresion  lineales  porque  son  lineales  en 
todos  sus  parametros.  El  modelo  d  es  mixto,  pues  es  lineal,  pero  no  In  f}\.  No  obstante,  si  a  — 
In  fa,  entonces  este  modelo  es  lineal  en  a  y  fi2. 

En  el  ejercicio  2.7,  los  modelos  dye  son  intrmsecamente  no  lineales  porque  no  hay  una 
forma  simple  para  linealizarlos.  El  modelo  c  es  obviamente  una  regresion  lineal.  /.Y  los  mode- 


1  Observamos  en  el  capitulo  4  que,  segun  el  supuesto  del  termino  de  error  normalmente  distribuido,  los 
estimadores  de  MCO  no  solo  son  MELI,  sino  tambien  MEI  (mejor  estimador  insesgado)  en  toda  la  clase  de 
estimadores,  lineales  o  no  lineales.  Pero  si  eliminamos  el  supuesto  de  normalidad,  como  senalan  Davidson 
y  MacKinnon,  se  pueden  obtener  estimadores  no  lineales  y/o  sesgados  tal  vez  mas  adecuados  que  los  esti¬ 
madores  de  MCO.  Vease  Russell  Davidson  y  James  G.  MacKinnon,  Estimation  and  Inference  in  Econometrics, 
Oxford  University  Press,  Nueva  York,  1993,  p.  161. 
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los  a  y  b?  A1  tomar  los  logaritmos  en  ambos  miembros  de  a  obtenemos  In  Yj  —  fi\  +  fiiX,  +  Uj, 
que  es  lineal  en  los  parametros.  Por  consiguiente,  el  modelo  a  es  intrinsecamente  un  modelo  de 
regresion  lineal.  El  modelo  b  es  un  ejemplo  de  una  funcion  de  distribucion  (de  probabilidad) 
logistica,  que  estudiaremos  en  el  capitulo  15.  A  primera  vista,  es  un  modelo  de  regresion  no 
lineal,  a  saber, 


In 


—  P\  +  PiXi  +  Ui 


(14.1.1) 


Por  consiguiente,  el  modelo  b  es  intrinsecamente  lineal:  veremos  la  utilidad  de  los  modelos  como 
el  (14.1.1)  en  el  siguiente  capitulo. 

Considere  ahora  la  famosa  funcion  de  produccion  Cobb-Douglas  (C-D).  Sea  Y  =  produc¬ 
cion,  Xj  —  insumo  trabajo  y  A3  =  insumo  capital;  expresaremos  esta  funcion  de  tres  maneras: 

Yi  =  L hX^xfie*'  (14.1.2) 


o 


In  Yj  —  a  +  P2  lnX2,  +  /I3  In  A3 ,  +  m,  (14.1 .2 a) 

donde  a  =  In  f}\.  En  consecuencia,  con  este  formato,  la  funcion  C-D  es  intrinsecamente  lineal. 
Ahora  considere  esta  version  de  la  funcion  C-D: 

Yt  =  PiX%X%ut  (14.1.3) 


o 


In  Yj  —  a  +  In  X2,  +  /S3  In  A3,  +  In  u,  (14.1.3o) 


donde  a  =  In  Este  modelo  tambien  es  lineal  en  sus  parametros. 

Pero  ahora  considere  la  siguiente  version  de  la  funcion  C-D: 

Yi=PiX%X%+Ui  (14.1.4) 

Como  acabamos  de  notar,  las  versiones  (14.1.2a)  y  (14.1.3a)  de  la  funcion  C-D  son  modelos  de 
regresion  intrinsecamente  lineales  en  los  parametros,  pero  no  hay  forma  de  transformar  (14.1.4) 
de  manera  que  el  modelo  transformado  sea  lineal  en  los  parametros.2  Por  tanto,  (14.1.4)  es  un 
modelo  de  regresion  intrinsecamente  no  lineal. 

Otra  funcion  muy  conocida,  pero  intrinsecamente  no  lineal,  es  la  funcion  de  produccion  con 
elasticidad  constante  de  sustitucion  (ECS),  que  tiene  a  la  funcion  de  produccion  Cobb-Douglas 
como  caso  especial.  La  produccion  ECS  adopta  la  siguiente  forma: 

Yi  =  A[8K7p  +  (1  -  8)L~P]~1,P  (14.1.5) 

donde  Y  =  produccion,  K  =  insumo  capital,  L  =  insumo  trabajo,  A  =  parametro  de  escala, 
8  =  parametro  de  distribucion  (0  <8  <  \)y  jJ,  —  parametro  de  sustitucion  (fi  >  —  l).3  Sin  impor- 
tar  la  forma  en  que  introduzca  el  termino  de  error  estocastico  u,  en  esta  funcion  produccion,  no 
hay  manera  de  cambiarla  a  un  modelo  de  regresion  lineal  (en  los  parametros).  Es  intrinsecamente 
un  modelo  de  regresion  no  lineal. 


2  Si  intenta  transformar  mediante  logaritmos  el  modelo,  no  sera  correcto,  pues  In  (A  +  B)  ^  In  A  +  In  B. 

3  Para  las  propiedades  de  la  funcion  produccion  ECS,  vease  Michael  D.  Intriligator,  Ronald  Bodkin  y  Cheng 
Hsiao,  Econometric  Models,  Techniques,  and  Applications,  2a.  ed.,  Prentice  Hall,  1996,  pp.  294-295. 
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14.2  Estimacion  de  modelos  de  regresion  lineales  y  no  lineales 


Para  apreciar  la  diferencia  al  estimar  modelos  de  regresion  lineales  y  no  lineales,  considere  los 
dos  modelos  siguientes: 


—  Pi  +  PlXi  +  «i 

(14.2.1) 

=  PiekX‘  +  m 

(14.2.2) 

A  estas  alturas  ya  sabe  que  (14.2.1)  es  un  modelo  de  regresion  lineal,  en  tanto  que  (14.2.2)  es 
no  lineal.  La  regresion  ( 14.2.2)  se  conoce  como  modelo  de  regresion  exponencial,  y  a  menudo 
se  utiliza  para  medir  el  crecimiento  de  una  variable,  como  la  poblacion,  el  P1B  o  la  oferta  de 
dinero. 

Suponga  que  pretendemos  estimar  los  parametros  de  los  dos  modelos  mediante  MCO.  En  ese 
metodo  reducimos  la  suma  de  cuadrados  residual  (SCR),  que  para  el  modelo  (14.2.1)  es: 

=  (14.2.3) 

donde,  como  siempre,  Pi  y  fJn  son  los  estimadores  de  MCO  de  las  verdaderas  ft.  Al  diferenciar  la 
expresion  anterior  respecto  de  las  dos  incognitas  obtenemos  las  ecuaciones  normales  mostra- 
das  en  (3.1.4)  y  (3.1.5).  Al  resolver  ambas  de  manera  simultanea  obtenemos  los  estimadores  de 
MCO  dados  en  las  ecuaciones  (3.1.6)  y  (3.1.7).  Observe  con  cuidado  que  en  dichas  ecuaciones 
las  incognitas  (las  ft)  estan  en  el  miembro  izquierdo  y  los  datos  conocidos  (X y  Y)  en  el  derecho. 
Como  resultado,  obtenemos  soluciones  explicitas  para  ambas  incognitas  en  terminos  de  los  datos 
dados. 

Ahora  vea  lo  que  pasa  si  tratamos  de  reducir  la  SCR  de  (14.2.2).  Como  vimos  en  el  apendice 
14A,  seccion  14A.  1 ,  las  ecuaciones  normales  correspondientes  a  (3. 1 .4)  y  (3. 1 .5)  son  las  siguien¬ 
tes: 


Y,e^x‘  =  Pie2^x‘  (14.2.4) 

J2  Y,X,e^x-  =  pi  X,e2^x‘  (1 4.2.5) 

A  diferencia  de  las  ecuaciones  normales  para  el  modelo  de  regresion  lineal,  las  ecuaciones  nor¬ 
males  para  la  regresion  no  lineal  tienen  incognitas  (las  P)  en  ambos  miembros  de  las  ecuaciones. 
Como  consecuencia,  no  podemos  obtener  soluciones  explicitas  de  las  incognitas  en  terminos  de 
las  cantidades  conocidas.  Para  decirlo  de  otra  forma,  las  incognitas  estan  expresadas  en  terminos 
de  ellas  mismas  y  de  los  datos.  Por  tanto,  aunque  apliquemos  el  metodo  de  los  minimos  cuadra¬ 
dos  para  estimar  los  parametros  de  los  modelos  de  regresion  no  lineal,  no  obtendremos  solucio¬ 
nes  explicitas  de  las  incognitas.  A  proposito,  los  MCO  aplicados  al  modelo  de  regresion  no  lineal 
se  conocen  como  minimos  cuadrados  no  lineales  (MCNL).  Por  tanto,  ^cual  es  la  solution?  Lo 
veremos  en  seguida. 


14.3  Estimacion  de  modelos  de  regresion  no  lineales: 
metodo  de  ensayo  y  error 


Para  establecer  el  contexto  consideremos  un  ejemplo  concreto.  Los  datos  de  la  tabla  14.1  se  refie- 
ren  a  las  comisiones  administrativas  que  un  fondo  mutualista  lider  en  Estados  Unidos  paga  a  sus 
consultores  de  inversion  por  el  manejo  de  sus  bienes.  Las  comisiones  dependen  del  valor  neto  de 
los  bienes  del  fondo.  Como  se  ve,  mientras  mas  alto  sea  el  valor  neto  de  los  bienes,  menores  seran 
las  comisiones  por  consultoria,  lo  cual  aparece  claramente  en  la  figura  14.1. 
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TABLA  14.1 

Comision,  % 

Activcri 

Comisiones  por  consul¬ 
toria  v  tamano  de  los 

1 

0.520 

0.5 

activos 

2 

0.508 

5.0 

3 

0.484 

10 

4 

0.46 

15 

5 

0.4398 

20 

6 

0.4238 

25 

7 

0.4115 

30 

8 

0.402 

35 

9 

0.3944 

40 

10 

0.388 

45 

11 

0.3825 

55 

12 

0.3738 

60 

*  La  columna  Activos  representa  el  valor  neto  del  activo  en  miles 
de  millones  de  dolares. 


FIGURA  14.1 

Relacion  entre  la  comi- 
sion  por  consultoria  y  los 
activos  del  fondo. 
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Para  ver  como  se  ajusta  el  modelo  de  regresion  exponencial  (14.2.2)  a  los  datos  de  la  tabla 
14.1,  procedemos  mediante  ensayo  y  error.  Suponga  que  al  principio  =  0.45  y  /C  =  0.0 1 .  Estas 
son  solo  conjeturas,  a  veces  fundamentadas  en  la  experiencia  previa,  el  trabajo  emplrico  anterior 
u  obtenidas  solo  mediante  el  ajuste  de  un  modelo  de  regresion  lineal,  aunque  quiza  no  resulte  el 
apropiado.  En  esta  etapa  no  hay  que  preocuparse  por  el  origen  de  tales  valores. 

Como  conocemos  los  valores  de  y  (J>2~  escribimos  la  ecuacion  ( 14.2.2)  como: 

Ui  —  Yt  —  £,xehXi  =  Yt-  0.45eoolx‘  (14.3.1) 

Por  consiguiente, 

=  ^(7,  -  0.45e001^)2  (14.3.2) 

Como  se  conocen  Y,  X,  fi\  y  j3 2,  determinamos  con  facilidad  la  suma  de  cuadrados  de  los  errores 
en  (14. 3. 2). 4  Recuerde  que,  en  MCO,  el  objetivo  es  calcular  los  valores  de  los  parametros  des- 
conocidos  que  reduzcan  lo  mas  posible  la  suma  de  cuadrados  de  los  errores.  Esto  sucede  si  los 


4  Observe  que  se  conoce  a  J)  uj  como  la  suma  de  cuadrados  de  los  errores  y  no  como  la  usual  suma  de  cua¬ 
drados  residual,  pues  se  supone  que  se  desconocen  los  valores  de  los  parametros. 
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valores  estimados  de  Y  del  modelo  estan  tan  cerca  como  sea  posible  de  los  valores  Y  reales.  Con 
los  valores  dados,  obtenemos  u]  =  0.3044.  Pero,  (',c6mo  sabemos  si  esta  es  la  menor  suma  de 
cuadrados  de  los  errores  que  podemos  obtener?  pQue  sucede  si  elegimos  otros  valores  para  ft\  y 
/b,  por  ejemplo,  0.50  y  —0.01,  respectivamente?  A1  repetir  el  procedimiento,  obtenemos  ahora 

M;  =  0.0073.  Obvio,  esta  suma  de  cuadrados  de  los  errores  es  mucho  mas  pequena  que  la  an¬ 
terior,  a  saber:  0.3044.  Pero,  pcomo  sabemos  que  obtuvimos  la  suma  de  cuadrados  de  los  errores 
mas  pequena,  y  que  si  eligieramos  otro  conjunto  de  valores  para  las  ft  no  obtendriamos  otra  suma 
de  cuadrados  de  los  errores? 

Como  se  ve,  dicho  proceso  de  ensayo  y  error,  o  iterativo,  es  sencillo.  Y  si  se  dispone  de  tiempo 
y  paciencia  infinitos,  el  proceso  de  ensayo  y  error  quizd  produzca  a  la  larga  valores  de  ft\  y  /b 
que  tal  vez  garanticen  la  suma  de  cuadrados  de  los  errores  mas  pequena.  Pero  surge  la  siguiente 
pregunta:  pcomo  llegamos  de  (fii  =  0.45;  ft>2  —  0.01)  a  (ft\  =  0.50;  /b  =  —0.1)?  Es  evidente  que 
necesitamos  una  especie  de  algoritmo  que  indique  la  forma  de  ir  de  un  conjunto  de  valores  de  las 
incognitas  a  otro  conjunto,  antes  de  finalizar.  Por  fortuna,  dichos  algoritmos  estan  disponibles,  y 
los  analizaremos  en  la  siguiente  seccion. 


14.4  Metodos  para  estimar  modelos  de  regresion  no  lineales 


Existen  varios  metodos,  o  algoritmos,  para  los  MRNL:  1)  busqueda  directa  o  metodo  de  ensayo 
y  error,  2)  optimizacion  directa  y  3)  linealizacion  iterativa.5 

Busqueda  directa  o  metodo  de  ensayo  y  error,  o  de  libre  derivacion 

En  la  seccion  anterior  vimos  como  funciona  este  metodo.  A  pesar  de  ser  atractivo,  porque  se 
trabaja  con  la  intuicion  y  no  requiere  calculo,  como  otros  metodos,  no  es  muy  comun.  En  primer 
lugar,  si  un  MRNL  contiene  varios  parametros,  el  calculo  de  este  metodo  se  vuelve  muy  engo- 
rroso  y  pesado.  Por  ejemplo,  si  un  MRNL  implica  5  parametros  y  25  valores  alternos  para  cada 
parametro,  habra  que  calcular  la  suma  de  cuadrados  de  los  errores  (25)5  =  9  765  625  veces.  En 
segundo  lugar,  no  se  garantiza  que  con  el  conjunto  final  de  los  valores  de  los  parametros  selec- 
cionado  necesariamente  se  obtendra  la  suma  de  cuadrados  de  los  errores  minima  absoluta.  En 
el  lenguaje  del  calculo,  obtendria  un  minimo  local  y  no  un  minimo  absoluto.  De  hecho,  ningun 
metodo  garantiza  un  minimo  global. 

Optimizacion  directa 

En  la  optimizacion  directa  se  diferencia  la  suma  de  cuadrados  de  los  errores  respecto  de  cada 
coeficiente  o  parametro  desconocido,  se  iguala  la  ecuacion  resultante  a  cero  y  se  resuelven  las 
ecuaciones  normales  obtenidas  de  manera  simultanea.  Ya  vimos  esto  en  (14.2.4)  y  ( 14.2.5),  pero, 
como  se  observa  a  partir  de  estas  ecuaciones,  no  se  pueden  resolver  explicita  o  anaUticamente. 
Por  consiguiente,  se  requiere  alguna  rutina  iterativa;  una  de  ellas  se  conoce  como  metodo  de 
pasos  descendente.  No  veremos  los  detalles  tecnicos  de  este  metodo,  pues  son  un  cuanto  com- 
plejos,  pero  el  lector  puede  encontrarlos  en  las  referencias.  A1  igual  que  el  metodo  de  ensayo  y 
error,  el  metodo  de  pasos  descendente  tambien  implica  la  selection  de  valores  iniciales  de  prueba 
para  los  parametros  desconocidos,  pero  luego  precede  de  forma  mas  sistematica  que  el  de  error 
y  acierto,  o  el  de  ensayo  y  error.  Una  desventaja  de  este  metodo  es  que  puede  converger  a  los 
valores  finales  de  los  parametros  de  una  forma  demasiado  lenta. 


5  El  siguiente  analisis  se  basa  en  gran  medida  en  las  siguientes  fuentes:  Robert  S.  Pindyck  y  Daniel  L.  Rubin- 
feld.  Econometric  Models  and  Economic  Forecasts,  4a.  ed.,  McGraw-Hill,  1 998,  cap.  1 0;  Norman  R.  Draper  y 
Harry  Smith,  Applied  Regression  Analysis,  3a.  ed.,  John  Wiley  &  Sons,  1998,  cap.  24;  Arthur  S.  Goldberger, 

A  Course  in  Econometrics,  Harvard  University  Press,  1 991,  cap.  29;  Russell  Davidson  y  James  MacKinnon,  op. 
cit.,  pp.  201  -207;  John  Fox,  Applied  Regression  Analysis,  Linear  Models,  and  Related  Methods,  Sage,  1 997,  pp. 
393-400,  y  Ronald  Gallant,  Nonlinear  Statistical  Models,  John  Wiley  and  Sons,  1 987. 
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Metodo  de  linealizacion  iterativa 

En  este  metodo  se  linealiza  la  ecuacion  no  lineal  alrededor  de  algunos  valores  iniciales  de  los 
parametros.  Luego,  la  ecuacion  linealizada  se  calcula  mediante  MCO  y  se  ajustan  los  valores 
elegidos  al  principio.  Con  estos  valores  ajustados  se  vuelve  a  linealizar  el  modelo  y  de  nuevo 
se  calcula  mediante  MCO  y  se  reajustan  los  valores  estimados.  Este  proceso  continua  hasta  que 
no  haya  un  cambio  sustancial  en  los  valores  estimados  respecto  del  ultimo  par  de  iteraciones. 
La  tecnica  principal  para  linealizar  una  ecuacion  no  lineal  es  la  expansion  de  series  de  Taylor, 
tomada  del  calculo.  En  el  apendice  14A,  seccion  14A.2,  se  ofrecen  detalles  muy  generales  de  este 
metodo.  La  estimacion  del  MRNL  mediante  la  expansion  de  series  de  Taylor  se  sistematiza  con 
dos  algoritmos  conocidos  como  metodo  iterativo  Gauss-Newton  y  metodo  iterativo  Newton- 
Raphson.  En  vista  de  que  uno  o  ambos  metodos  ya  estan  incorporados  en  diversos  programas 
de  computadora,  y  como  un  estudio  de  sus  aspectos  tecnicos  escapa  al  objetivo  de  esta  obra,  no 
necesitamos  extendernos  aqui  en  su  analisis.6  En  la  siguiente  seccion  veremos  algunos  ejemplos 
con  dichos  metodos. 


14.5  Ejemplos  ilustrativos 


EJEMPLO  14.1 

Comisiones  por 
consultoria  de  un 
fondo  mutualista 


Consulte  los  datos  de  la  tabla  14.1  y  el  MRNL  (14.2.2).  Mediante  la  rutina  de  regresion  no 
lineal  del  paquete  EViews  6,  que  se  vale  del  metodo  de  linealizacion,7  obtuvimos  los  siguientes 
resultados  de  la  regresion;  los  coeficientes,  sus  errores  estandar  y  sus  valores  t  se  dan  en  forma 
tabular : 


Variable 

Coeficiente 

Error  estandar 

Valor  t 

Valor  p 

Intercepto 

0.5089 

0.0074 

68.2246 

0.0000 

Activo 

-0.0059 

0.00048 

-12.3150 

0.0000 

R2  =  0.9385  d=  0.3493 


A  partir  de  estos  resultados  expresamos  el  modelo  estimado  como: 

Comision,  =  0.5089  Activo“°  0059  (14.5.1) 

Antes  de  analizar  estos  resultados  hay  que  notar  que  si  no  se  proporcionan  los  valores  iniciales 
de  los  parametros  a  fin  de  empezar  el  proceso  de  linealizacion,  EViews  lo  hara.  Le  bastan  cinco 
iteraciones  a  EViews  para  obtener  los  resultados  mostrados  en  (14.5.1).  No  obstante,  uno  puede 
proporcionar  sus  propios  valores  iniciales  para  iniciar  el  proceso.  A  fin  de  demostrarlo,  elegi- 
mos  los  valores  iniciales  para  f) i  =  0.45  y  =  0.01  .Obtuvimos  los  mismos  resultados  que  en 
(14.5.1),  pero  necesitamos  ocho  iteraciones.  Es  importante  mencionar  que  se  requeriran  menos 
iteraciones  si  los  valores  iniciales  no  estan  muy  distantes  de  los  valores  finales.  En  algunos  casos 
pueden  elegirse  los  valores  iniciales  de  los  parametros  tan  solo  con  una  regresion  por  MCO  de 
la  regresada  sobre  la(s)  regresadora(s),  unicamente  ignorando  la  no  linealidad.  Por  ejemplo,  con 
los  datos  de  la  tabla  14.1,  si  fuese  a  efectuar  la  regresion  de  las  comisiones  sobre  los  activos,  la 
estimacion  por  MCO  de  f)-\  serfa  0.5028  y  el  de  /S2  serfa  de  -0.002,  los  cuales  estan  mucho  mas 


6  Hay  otro  metodo  que  a  veces  se  utiliza  — metodo  Marquard — y  que  es  un  procedimiento  intermedio 
entre  el  metodo  de  pasos  descendente  y  el  de  linealizacion  (o  series  de  Taylor).  El  lector  interesado  puede 
consultar  las  referencias  para  conocer  mayores  detalles  de  dicho  metodo. 

7  EViews  proporciona  tres  metodos:  el  de  la  ruta  ascendente  cuadratica,  el  de  Newton-Raphson  y  el  de 
Berndt-Hall-Hall-Hausman.  La  opcion  por  omision  es  la  ruta  ascendente  cuadratica,  que  es  una  variacion 
del  metodo  de  Newton-Raphson. 
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EJEMPLO  14.1 

( continuation ) 


cerca  de  los  valores  finales  dados  en  (14.5.1).  (Para  los  detalles  tecnicos  consulte  el  apendice 
1 4A,  seccion  1 4A.3.) 

Ahora  bien,  respecto  de  las  propiedades  de  los  estimadores  de  MCNL,  recuerde  que  en  el 
caso  de  los  modelos  de  regresion  lineales  con  terminos  de  error  distribuidos  normalmente,  pu- 
dimos  desarrollar  procesos  de  inferencia  exactos  (es  decir,  pruebas  de  hipotesis)  con  las  pruebas 
t,  F y  ji  cuadrada  en  muestras  pequenas  y  grandes.  Por  desgracia,  no  es  el  caso  con  los  MRNL, 
aunque  tengan  terminos  de  error  distribuidos  normalmente.  Los  estimadores  de  MCNL  no  estan 
distribuidos  normalmente,  no  son  insesgados  y  no  tienen  varianza  minima  en  muestras  pequenas 
o  finitas.  Como  resultado,  no  sirve  la  prueba  f  (para  probar  la  significancia  de  un  coeficiente 
individual)  ni  la  F(para  probar  la  significancia  global  de  la  regresion  estimada),  pues  no  puede 
obtenerse  una  estimacion  insesgada  de  la  varianza  del  error  a2  a  partir  de  los  residuos  estimados. 
Es  mas,  los  residuos  (la  diferencia  entre  los  valores  Y  reales  y  los  valores  Y  estimados  obtenidos 
del  MRNL)  no  necesariamente  suman  cero.  La  suma  de  SCEy  SCR  no  necesariamente  da  como 
resultado  la  SCT;  por  tanto,  R2  =  SCE/SCT  puede  no  ser  un  estadfstico  descriptivo  importante 
para  tales  modelos.  No  obstante,  podemos  calcular  R2  como: 


R  2  =  1 


Y.af 

Z(Yi~Y)2 


(14.5.2) 


donde  Y  =  regresada  y  Uj  =  Y-,  —  ?/,  donde  Y,  son  los  valores  Y estimados  del  MRNL  (ajustado). 

En  consecuencia,  las  inferencias  respecto  de  los  parametros  de  la  regresion  en  una  regresion 
no  lineal  suelen  basarse  en  la  teona  de  las  muestras  grandes,  segun  la  cual,  cuando  la  muestra 
es  grande,  los  estimadores  de  mmimos  cuadrados  y  de  maxima  verosimilitud  para  modelos  de 
regresion  no  lineal  con  terminos  de  error  normales  estan  casi  normalmente  distribuidos  y  casi 
son  insesgados,  ademas  de  que  casi  tienen  varianza  minima.  Esta  teona  de  muestras  grandes 
tambien  aplica  cuando  los  terminos  de  error  no  estan  normalmente  distribuidos.8 

Asf,  en  resumen,  todos  los  procedimientos  de  inferencia  en  los  MRNL  son  de  muestras  gran¬ 
des  o  asintoticos.  Al  retomar  el  ejemplo  14.1,  los  estadfsticos  t  de  (14.5.1)  tienen  significado 
solo  si  se  interpretan  en  el  contexto  de  muestras  grandes.  En  ese  sentido,  podemos  decir  que 
los  coeficientes  estimados  mostrados  en  (14.5.1)  son  estadisticamente  significativos  en  forma 
individual.  Por  supuesto,  la  muestra  en  el  presente  ejemplo  es  mas  bien  pequefia. 

De  nuevo  con  (14.5.1),  ^como  calculamos  la  tasa  de  cambio  de  Y  (=  comision)  respecto  de 
X  (el  tamano  de  los  activos)?  Con  las  reglas  basicas  de  las  derivadas,  el  lector  puede  ver  que  la 
tasa  de  cambio  de  Y  respecto  de  X  es: 

dY 

—  =  P]p2efllX  =  (— 0.0059)(0.5089)e~°  00S9X  (14.5.3) 


Como  se  observa,  la  tasa  de  cambio  de  la  comision  depende  del  valor  de  los  activos.  Por  ejem¬ 
plo,  si  X  =  20  (millones),  la  tasa  esperada  de  cambio  en  las  comisiones  cobradas  se  obtiene  de 
(14.5.3),  la  cual  resulta  casi  del  -0.0031%.  Por  supuesto,  esta  respuesta  cambia  en  funcion  del 
valor  X  con  que  se  calcule.  Si  se  juzga  con  la  R2  como  se  calculo  en  (14.5.2),  el  valor  R2  igual 
a  0.9385  sugiere  que  el  MRNL  elegido  se  ajusta  muy  bien  a  los  datos  de  la  tabla  14.1.  El  va¬ 
lor  Durbin-Watson  estimado  (igual  a  0.3493)  puede  sugerir  una  autocorrelacion  o  tal  vez  un 
error  de  especificacion  del  modelo.  Aunque  existen  procedimientos  que  se  encargan  de  estos 
problemas,  asf  como  de  la  heteroscedasticidad  en  MRNL,  no  examinaremos  esos  temas  aquf.  El 
lector  interesado  puede  consultar  las  referencias. 


8  John  Neter,  Michael  H.  Kutner,  Christopher  J.  Nachtsheim  y  William  Wasserman,  Applied  Regression  Analysis, 
3a.  ed.,  Irwin,  pp.  548-549. 
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EJEMPLO  14.2  Consulte  los  datos  proporcionados  en  el  ejercicio  14.9  (tabla  14.3),  referentes  a  la  economfa 

Funcion  de produc-  mexicana  de  1955  a  1974.  Vera  que  el  MRNL  dado  en  (14.1.4)  se  ajusta  a  los  datos,  en  donde 

. ,  r*  uu  n  /  Y=  Produccion,  X2  =  insumo  trabajo  y  X3  =  insumo  capital.  Con  EViews  6  obtuvimos  los  siguien- 

cion  o  -  oug  as  tes  resu|tados  de  regresion,  despues  de  32  iteraciones. 
para  la  economia 


mexicana 

Variable 

Coeficiente 

Error  estandar 

Valor  t 

Valor  p 

Intercepto 

0.5292 

0.2712 

1.9511 

0.0677 

Trabajo 

0.1810 

0.1412 

1.2814 

0.2173 

Capital 

0.8827 

0.0708 

12.4658 

0.0000 

R2  =  0.9942  d=  0.2899 
Por  tanto,  la  funcion  de  produccion  Cobb-Douglas  estimada  es: 

PIBt  =  0.5292  Trabajo® 1810  Capital®  8827  (14.5.4) 

Interpretada  de  manera  asintotica,  la  ecuacion  muestra  que  en  el  modelo  solo  el  coeficiente  del 
insumo  capital  es  significativo.  En  el  ejercicio  14.9  se  pide  al  lector  comparar  estos  resultados 
con  los  obtenidos  en  la  funcion  de  produccion  Cobb-Douglas  multiplicativa,  como  se  dio  en 
(14.1.2). 


EJEMPLO  14.3 

Crecimiento  de  la 
poblacion  de 
E st ados  Unidos, 
1970-2007 


FIGURA  14.2 

Poblacion  por  ano. 


La  tabla  del  ejercicio  14.8  presenta  datos  sobre  la  poblacion  total  de  Estados  Unidos  de  1970  a 
2007.  A  menudo  se  mide  el  crecimiento  de  algunas  poblaciones  (seres  humanos,  bacterias,  etc.) 
con  un  modelo  logistico  del  siguiente  tipo: 


Yt  = 


ft 

1  +  e<fc+/>3> 


+  U  ( 


(14.5.5) 


donde  Y  =  poblacion,  en  millones;  t  =  tiempo  (medido  cronologicamente),  y  las  ft  son  los  pa¬ 
rametros. 

Este  modelo  es  no  lineal  en  los  parametros;  no  existe  una  manera  sencilla  de  convertirlo  en  un 
modelo  lineal  en  los  parametros.  Por  tanto,  es  necesario  un  metodo  de  estimacion  no  lineal  para 
estimar  los  parametros.  Observe  una  caracterfstica  interesante  de  este  modelo:  a  pesar  de  que 
solo  tiene  dos  variables,  poblacion  y  tiempo,  hay  tres  parametros  desconocidos,  lo  cual  muestra 
que  en  un  MRNL  puede  haber  mas  parametros  que  variables. 

Un  intento  por  ajustar  la  ecuacion  (14.5.5)  a  los  datos  no  tuvo  exito,  porque  todos  los  coefi- 
cientes  estimados  fueron  estadfsticamente  insignificantes.  Tal  vez  esto  no  deba  sorprender,  pues, 
si  graficamos  la  poblacion  contra  el  tiempo,  obtenemos  la  figura  14.2. 
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EJEMPLO  14.3 

(i continuation ) 


Esta  figura  demuestra  una  relacion  casi  lineal  entre  las  dos  variables.  Si  se  graficamos  el  logaritmo 
de  la  poblacion  contra  el  tiempo,  obtenemos  la  siguiente  figura: 


FIGURA  14.3 

Logaritmo  de  poblacion 
sobre  el  ano. 
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La  pendiente  de  esta  figura  (multiplicada  por  100)  da  la  tasa  de  crecimiento  de  la  poblacion 
(ipor  que?). 

De  hecho,  si  efectuamos  una  regresion  del  logaritmo  de  la  poblacion  sobre  el  tiempo,  obte¬ 
nemos  los  siguientes  resultados: 


Variable  dependiente :  L  Poblacion 
Metodo:  Minimos  cuadrados 
Muestra:  1970-2007 
Observaciones  incluidas :  38 


Coef iciente 

Error  estandar  Estadistico  t 

Prob . 

c 

-8 . 710413 

0 . 147737 

-58 . 95892 

0 . 0000 

ANO 

0 . 010628 

7.43E-05 

143 . 0056 

0 . 0000 

R  cuadrada 

0 .998244 

Media  de  la  variable 

R  cuadrada  ajustada 

0 .998195 

dependiente 

12.42405 

Error  estandar  de 

la  regresion 

0 .005022 

Desviacion  estandar  de  la 

Suma  de  cuadrados 

residual 

0 .000908 

variable  dependiente 

0 . 118217 

Log  verosimilitud 

148.2756 

Criterio  de  informacion  de 

Estadistico  F 

20465.26 

Akaike 

-7.698713 

Prob .  (estadistico 

F ) 

0 .000000 

Criterio  de  Schwarz 

-7 . 612525 

Criterio  de  Hannan-Quinn 

-7 . 668048 

Estadistico  de  Durbin-Watson 

0 .366006 

Esta  tabla  muestra  que,  de  1970  a  2007,  la  poblacion  de  Estados  Unidos  credo  con  una  tasa 
aproximada  de  1 .06  por  ciento  anual.  El  valor  R2  de  0.998  revela  un  ajuste  casi  perfecto. 

Este  ejemplo  pone  de  manifiesto  un  punto  importante:  a  veces,  un  modelo  lineal  (en  los 
parametros)  es  preferible  a  uno  no  lineal  (en  los  parametros). 
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EJEMPLO  14.4 

Transformation 
Box-Cox:  Poblacion 
de  Estados  Unidos, 
1970-2007 


En  el  apendice  6A.5  consideramos  brevemente  la  transformacion  Box-Cox.  Seguiremos  traba- 
jando  con  el  ejemplo  14.3,  pero  supondremos  el  siguiente  modelo: 

PoblacionA  =  P:  +  /S2  Ano  +  u 

Como  se  menciono  en  el  apendice  6A.5,  segun  el  valor  de  X  tenemos  las  siguientes  posibilida- 
des: 


Valor  de  A.  Modelo 

0  In  Poblacion  =  fa  +  fa  Ano  +  u 

1  Poblacion,  =  /J i  +  fa  Ano  +  u 


El  primero  es  un  modelo  inverso,  el  segundo  es  un  modelo  semilog  (que  ya  estimamos  en  el 
ejemplo  14.3)  y  el  tercero  es  un  modelo  lineal  (en  las  variables). 

^Cual  de  estos  modelos  es  adecuado  para  los  datos  de  poblacion?  Para  responder  se  usa  la 
rutina  Box-Cox  en  STATA  (version  10): 


Prueba 

HO: 

Log  verosimilitud 
restringido 

Estadfstico 

RV  ji2 

Valor  p, 

Prob.  >  ji2 

0=  -1 

-444.42475 

0.14 

0.707 

0=0 

-444.38813 

0.07 

0.794 

0=  1 

-444.75684 

0.81 

0.369 

Nota:  En  nuestra  notacion,  theta  ( 0 )  es  lo  mismo  que  lambda  (A).  Esta  tabla  muestra  que,  con 
base  en  la  prueba  de  la  razon  de  verosimilitud  (RV),  no  podemos  rechazar  ninguno  de  estos  va- 
lores  A  como  posibles  valores  de  la  potencia  de  la  poblacion;  es  decir,  en  el  presente  ejemplo,  los 
modelos  lineal,  inverso  y  semilog  son  candidates  por  igual  para  representar  el  comportamiento 
de  la  poblacion  en  el  periodo  de  muestra  de  1970  a  2007.  Por  tanto,  presentamos  los  resulta- 
dos  de  los  tres  modelos: 


Variable  dependiente 

Intercepto 

Pendiente 

R2 

1  /Poblacion 

0.000089 

— 4.28e-08 

0.9986 

t  (166.1 4) 

(-1568.10) 

In  Poblacion 

-8.7104 

0.0106 

0.9982 

t  (-58.96) 

(143.06) 

Poblacion 

-5042627 

2661.825 

0.9928 

f  (-66.92) 

(70.24) 

En  todos  estos  modelos  los  coeficientes  estimados  son,  sin  excepcion,  muy  significativos  estadis- 
ticamente.  Sin  embargo,  observe  que  los  valores  R2  no  son  directamente  comparables,  porque 
las  variables  dependientes  de  los  tres  modelos  son  diferentes. 

Este  ejemplo  demuestra  que  las  tecnicas  de  estimacion  no  lineales  son  aplicables  a  situaciones 
concretas. 
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Resumen  y 
conclusiones 


EJERCICIOS 


Los  principales  aspectos  que  se  analizaron  en  este  capitulo  se  resumen  de  la  siguiente  forma: 

1.  Aunque  los  modelos  de  regresion  lineal  predominan  en  la  teoria  y  en  la  practica,  hay  ocasio- 
nes  en  las  que  son  utiles  los  modelos  de  regresion  no  lineales  en  los  parametros  (MRNL). 

2.  Las  matematicas  propias  de  los  modelos  de  regresion  lineal  son  comparablemente  sencillas, 
pues  ofrecen  soluciones  explicitas  o  analiticas  para  los  coeficientes  de  tales  modelos.  La  teoria 
de  inferencia  de  muestras  grandes  y  muestras  pequenas  para  dichos  modelos  esta  bien  funda- 
mentada. 

3.  En  contraste,  para  los  modelos  de  regresion  intrinsecamente  no  lineales,  los  valores  de  los 
parametros  no  se  obtienen  de  manera  explicita.  Deben  calcularse  de  forma  numerica;  es  decir, 
mediante  procesos  iterativos. 

4.  Existen  diversos  metodos  para  obtener  los  estimados  de  los  MRNL,  como  1)  ensayo  y  error, 
2)  minimos  cuadrados  no  lineales  (MCNL)  y  3)  linealizacion  mediante  la  expansion  de  series 
de  Taylor. 

5.  Los  paquetes  de  computacion  ahora  cuentan  con  rutinas  integradas,  como  las  de  Gauss- 
Newton,  Newton-Raphson  y  la  de  Marquard.  Todas  son  rutinas  iterativas. 

6.  Los  estimadores  de  MCNL  no  presentan  propiedades  optimas  en  las  muestras  finitas,  pero 
en  muestras  grandes  si  cuentan  con  tales  propiedades.  En  consecuencia,  los  resultados  de  los 
MCNL  en  pequenas  muestras  deben  interpretarse  con  precaucion. 

7.  Los  problemas  de  autocorrelation,  heteroscedasticidad  y  especificacion  de  modelos  pueden 
afectar  a  los  MRNL,  como  afectan  a  los  modelos  de  regresion  lineales. 

8.  Ilustramos  los  MCNL  con  diversos  ejemplos.  Gracias  a  la  gran  disponibilidad  de  paquetes  de 
computacion  accesibles,  la  estimacion  de  los  MCNL  ya  no  es  un  obstaculo.  Por  consiguiente, 
el  lector  no  debe  evitar  estos  modelos  cuando  sean  convenientes  por  razones  practicas  o  teori- 
cas.  De  hecho,  si  consulta  el  ejercicio  12.10,  vera  que  en  la  ecuacion  (1)  existe  un  modelo  de 
regresion  intrinsecamente  no  lineal,  que  debe  calcularse  como  tal. 


Preguntas 

14.1.  (',Quc  se  quiere  decir  con  modelos  de  regresion  intrinsecamente  lineales  e  intrinsecamente 
no  lineales?  Proporcione  algunos  ejemplos. 

14.2.  Como  el  termino  de  error  en  la  funcion  production  de  Cobb-Douglas  se  introduce  me¬ 
diante  una  forma  aditiva  o  una  multiplicativa,  icomo  decidiria  entre  ambas? 

14.3.  (',Cual  es  la  diferencia  entre  la  estimacion  por  MCO  y  por  minimos  cuadrados  no  lineales 
(MCNL)? 

14.4.  La  relation  entre  la  presion  y  la  temperatura  en  el  vapor  saturado  se  expresa  como:* 

y  =  A(  mkt/(y+t)  +  ut 

donde  Y  =  presion  y  t—  temperatura.  Con  el  metodo  de  los  minimos  cuadrados  no  linea¬ 
les  (MCNL),  obtenga  las  ecuaciones  normales  para  este  modelo. 


*Adaptado  de  Drapery  Smith,  op.  cit.,  p.  554. 


536 


Parte  Tres  Temas  de  econometria 


14.5.  Establezca  si  los  siguientes  enunciados  son  verdaderos  o  falsos.  Justifique  sus  respuestas. 

a)  La  inferencia  estadistica  en  la  regresion  con  MCNL  no  puede  basarse  en  las  pruebas 
t,Fy  x2  usuales,  aunque  se  suponga  que  el  termino  de  error  esta  normalmente  distri- 
buido. 

b)  El  coeficiente  de  determinacion  (R2)  no  es  un  numero  particularmente  importante 
para  un  MRNL. 

14.6.  /.Como  linealizarla  la  funcion  de  produccion  ECS  analizada  en  este  capitulo?  Muestre  los 
pasos  necesarios. 

14.7.  Los  modelos  que  describen  el  comportamiento  de  una  variable  a  lo  largo  del  tiempo  se 
llaman  modelos  de  crecimiento.  Tales  modelos  operan  en  diversos  campos,  como  eco- 
nomia,  biologia,  botanica,  ecologia  y  demografia.  Los  modelos  de  crecimiento  adoptan 
varias  formas,  tanto  lineales  como  no  lineales.  Considere  los  siguientes  modelos,  donde 
Y  es  la  variable  cuyo  crecimiento  se  desea  medir,  t  es  el  tiempo  medido  cronologicamente 
y  ut  es  el  termino  de  error  estocastico. 

a)  —  0\  +  02 t  +  Ut 

b)  In  Y,  —  0\  +  02{  +  u, 

c )  Modelo  de  crecimiento  logistico:  Y,  =  {  +  +  ut 

d )  Modelo  de  crecimiento  de  Gompertz:  Y,  —  0\e~^ie  h'  +  u, 

Determine  las  propiedades  de  estos  modelos  al  considerar  el  crecimiento  de  Y  en  relacion 
con  el  tiempo. 


Ejercicios  empfricos 

14.8.  Los  datos  de  la  tabla  14.2  corresponden  a  la  poblacion  de  Estados  Unidos  (en  millones  de 
personas)  de  1970  a  2007.  Ajuste  los  modelos  de  crecimiento  que  se  presentan  en  el  ejer- 
cicio  14.7  y  elija  el  modelo  que  mejor  se  ajuste.  Interprete  los  parametros  del  modelo. 

14.9.  La  tabla  14.3  presenta  datos  reales  sobre  el  P1B,  trabajo  y  capital  de  Mexico  de  1955  a 
1974.  Vea  si  la  funcion  de  produccion  Cobb-Douglas  multiplicativa,  dada  en  la  ecuacion 
(14.1.2a),  se  ajusta  a  estos  datos.  Compare  esos  resultados  con  los  obtenidos  del  ajuste 
de  la  funcion  de  produccion  Cobb-Douglas  aditiva,  dada  en  (14.1.4),  cuyos  resultados  se 
presentan  en  el  ejemplo  14.2.  (',Cual  ajusta  mejor? 


TABLA  14.2 

Poblacion  de  Estados 

Ano 

Poblacion 

Ano 

Poblacion 

Unidos  (millones  de 

1970 

205  052 

1989 

247  342 

habitantes) 

1971 

207  661 

1990 

250  132 

1972 

209  896 

1991 

253  493 

Fuente:  Economic  Report  of  the 

1973 

211  909 

1992 

256  894 

President \  2008. 

1974 

213  854 

1993 

260  255 

1975 

215  973 

1994 

263  436 

1976 

218  035 

1995 

266  55 7 

1977 

220  239 

1996 

269  667 

1978 

222  585 

1997 

272  912 

1979 

225  055 

1998 

276  115 

1980 

227  726 

1999 

279  295 

1981 

229  966 

2000 

282  407 

1982 

232  188 

2001 

285  339 

1983 

234  307 

2002 

288  189 

1984 

236  348 

2003 

290  941 

1985 

238  466 

2004 

293  609 

1986 

240  651 

2005 

299  801 

1987 

242  804 

2006 

299  157 

1988 

245  021 

2007 

302  405 
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TABLA  14.3  Datos  de  la  funcion  de  production  de  la  economla  mexicana 


Observation 

PIB 

Trabajo 

Capital 

Observation 

PIB 

Trabajo 

Capital 

1955 

114  043 

8  310 

182  113 

1965 

212  323 

11  746 

315  715 

1956 

120  410 

8  529 

193  749 

1966 

226  977 

11  521 

337  642 

1957 

129 187 

8  738 

205  192 

1967 

241  194 

11  540 

363  599 

1958 

1  34  705 

8  952 

215  130 

1968 

260  881 

12  066 

391  847 

1959 

139  960 

9  171 

225  021 

1969 

277  498 

12  297 

422  382 

1960 

150  511 

9  569 

237  026 

1970 

296  530 

12  955 

455  049 

1961 

157  897 

9  527 

248  897 

1971 

306  712 

13  338 

484  677 

1962 

165  286 

9  662 

260  661 

1972 

329  030 

13  738 

520  553 

1963 

178  491 

10  334 

275  466 

1973 

354  057 

15  924 

561  531 

1964 

199  457 

10  981 

295  378 

1974 

374  977 

14  154 

609  825 

Notas:  El  PIB  se  expresa  en  millones  de  pesos  de  1960. 

El  trabajo  se  expresa  en  miles  de  personas. 

El  capital  se  expresa  en  millones  de  pesos  de  1960. 

Fuente:  Victor  J.  Elias,  Sources  of  Growth:  A  Study  of  Seven  Latin  American  Economies,  International  Center  for  Economic  Growth,  ICS  Press,  San  Francisco,  1992, 
tablas  E-5,  E-12  y  E-14. 


Apendice  14A 


14A.1  Derivacion  de  las  ecuaciones  (14.2.4)  y  (14.2.5) 


Exprese  (14.2.2)  como 


ut  =  Yi-  ftefcjr' 


(1) 


Por  consiguiente, 

Z«j  =  Z(Yl-fiie**)*  (2) 

La  suma  de  cuadrados  del  error  es  por  tanto  una  funcion  de  ft  y  ft 2,  pues  se  conocen  los  valores  de  Y  y  X. 
En  consecuencia,  para  reducir  la  suma  de  cuadrados  del  error,  se  diferencia  parcialmente  respecto  de  dos 
incognitas,  lo  cual  da: 


9jSi 

= 

3ft 


=  2  J2(Y‘~  ftefeX')(_lefcJr') 


(3) 

(4) 


Debido  a  la  condition  de  optimization  de  primer  orden,  al  igualar  las  ecuaciones  anteriores  a  cero  y  resol- 
verlas  simultaneamente,  obtenemos  (14.2.4)  y  (14.2.5).  Observe  que  diferenciamos  la  suma  de  cuadrados 
de  los  errores  con  la  regia  de  la  cadena. 


14A.2  Metodo  de  linealizacion 


Los  estudiantes  familiarizados  con  el  calculo  recordaran  el  teorema  de  Taylor,  el  cual  establece  que  toda 
funcion  arbitraria  f(X)  que  sea  continua  y  tenga  derivadas  de  orden  n  continuas  puede  aproximarse  alrede- 
dor  del  punto  X=Xo  mediante  una  funcion  polinomial  y  un  residuo  de  la  siguiente  forma: 


f(X)  = 


f(X o) 
0! 


f(X0)(X-X0) 

1! 


f"(X o)(X-X0)2 

2!  +"' 


r(x0)(x-x0r 

..  I 


(1) 
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donde  f\X 0)  es  la  primera  derivada  de  f(X)  evaluada  en  X  =  X0,f"(X0 )  es  la  segunda  derivada  de  f(X) 
evaluada  enX=  X0,  y  as!  sucesivamente;  ademas,  n\  (se  lee  como  n  factorial)  significa  n(n  —  1)(«  —  2). . .  1, 
con  la  convention  de  que  0!  =  1,  y  R  representa  al  residuo.  Si  tomamos  n  =  1,  obtenemos  una  aproximacion 
lineal;  al  elegir  n  =  2,  obtenemos  una  aproximacion  polinomial  de  segundo  grado.  Como  se  esperaria,  mien- 
tras  mayor  sea  el  orden  del  polinomio,  mejor  sera  la  aproximacion  a  la  funcion  original.  Las  series  en  (1) 
se  conocen  como  la  expansion  de  series  de  Taylor  de  f(X )  alrededor  del  punto  X  =  Xtt.  Como  ejemplo, 
considere  la  funcion: 


Y  =  f(X)  =  ai  +  a2X  +  a3X2  +  ot4X2 
Suponga  que  deseamos  aproximarla  aJ=0.  Ahora  obtenemos: 

/(0)  =  on  /'( 0)  =  a2  /"( 0)  =  2a3  /'"( 0)  =  6«4 

Por  consiguiente,  obtenemos  las  siguientes  aproximaciones: 

Primer  orden:  Y  =  a i  +  =  a\  +  a2X  +  a  residuo  ( =  a3 X2  +  a^X2} 

Segundo  orden:  7  =  /(0)  +  ^-jj-^X  +  ^  ^  X2 

=  a\  +  a2X  +  a3X2  +  a  residuo  ( =  a^X3) 

Tercer  orden:  Y  =  a i  +  a2X  +  a3X2  +  a^X2 

La  aproximacion  de  tercer  orden  reproduce  con  exactitud  la  ecuacion  original. 

El  objetivo  de  la  aproximacion  mediante  las  series  de  Taylor  con  frecuencia  consiste  en  elegir  un  poli¬ 
nomio  de  orden  inferior,  con  la  esperanza  de  que  el  termino  del  residuo  no  tenga  consecuencia  alguna  para 
el  proceso.  Suele  utilizarse  para  aproximar  una  funcion  no  lineal  mediante  una  funcion  lineal,  al  eliminarse 
los  terminos  de  orden  superior. 

La  aproximacion  mediante  series  de  Taylor  se  generaliza  con  facilidad  a  una  funcion  con  mas  de  una  X. 
Por  ejemplo,  considere  la  siguiente: 

y  =  fix,  z)  (2) 

y  suponga  que  deseamos  expandir  alrededor  de  X  =  a  y  Z  =  b.  El  teorema  de  Taylor  demuestra  que 

fix,  z)  =  f(a,  b)  +  fx(a,  b) (x  -  a) 

+  fzia,b)f(z-b)+  ^[fxx(a,b)(x-a)2  (3) 

-  2 fxz(a,  b)(x  -  a)(z  -  b)  +  fzz(a ,  b)(z  -  b )2]  H - 


donde  /j  =  la  derivada  parcial  de  la  funcion  respecto  de  X,fxx  =  la  segunda  derivada  parcial  respecto  de  Xy 
de  manera  semejante  para  la  variable  Z.  Si  queremos  una  aproximacion  lineal  para  la  funcion,  utilizamos  los 
dos  primeros  terminos  de  (3);  si  queremos  una  aproximacion  cuadratica,  o  de  segundo  orden,  empleamos 
los  tres  primeros  terminos  de  (3),  y  as!  sucesivamente. 


14A.3  Aproximacion  lineal  de  la  funcion  exponencial 
dada  en  (14.2.2) 


La  funcion  en  consideracion  es: 


Y  =  f(f)u  fh)  =  fhe^  (1) 

Nota:  Para  un  manejo  sencillo,  eliminamos  los  subindices. 

Recuerde  que  en  esta  funcion  las  incognitas  son  los  coeficientes  fi.  Linealicemos  esta  funcion  en  fi\  =  fi\  y 
p2  =  donde  las  cantidades  con  asterisco  son  valores  fijos  dados.  Para  linealizar  lo  anterior,  procedemos 
de  la  siguiente  forma: 


y  =  fifh, h)  =  net,  p2) + fpAPt’  Pirn  -  Pt) + foie*,  -  p*2) 


(2) 
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donde  fa  y  fa  son  las  derivadas  parciales  de  la  funcion  (1)  respecto  de  las  incognitas,  y  tales  derivadas  se 


evaluaran  en  los  valores  (supuestos)  con  asterisco  de  los  parametros  desconocidos.  Observe  que  solo  usa- 
mos  las  primeras  derivadas  en  la  expresion  anterior,  pues  estamos  linealizando  la  funcion.  Ahora  suponga 
que  p*  =  0.45  y  /3|  =  0.01,  las  cuales  son  solo  conjeturas  de  los  verdaderos  coeficientes.  Ahora 


f(Pf  =  0.45,  /3J  =  0.01)  =  0.45eOMX‘ 
fa  =  e^x>  y  fa  =  fhXie^ 


(3) 


debido  a  las  reglas  usuales  de  la  derivacion.  A1  evaluar  las  derivadas  anteriores  en  los  valores  dados  y  al 
regresar  a  (2),  obtenemos: 


Yi  =  0.45eomx‘  +  e00lx,(pi  -  0.45)  +  {0.45)XieamXt(h  ~  0  01) 


(4) 


que  escribimos  como: 


(5) 


donde 


(6) 


cti  =  (/Si  -  0.45)  y  «2  =  (fe  -  0.01) 


Ahora,  sea  Y*  =  (Jj-  —  OA5eoolx‘),  X\  =  eomXi  y  Xu  =  0.453c)  e001^'.  Con  estas  definiciones  y  al  sumar 
el  termino  error  «,■,  podemos  finalmente  escribir  (5)  como: 


(7) 


=  a \Xu  +  012X21  +  Ui 


Y  aqul  tenemos  un  modelo  de  regresion  lineal.  Como  Y*,  Xu  y  X21  se  calculan  con  facilidad  a  partir  de  los 
datos,  podemos  estimar  con  sencillez  (7)  mediante  MCO  y  obtener  los  valores  de  ot\  y  012.  Asl,  a  partir  de 
(6)  obtenemos: 


(8) 


/3l=&i+0.45  y  ^2  —  oil  4“  0.01 


Llame  a  esos  valores  p**  y  /6J*,  respectivamente.  Con  esos  valores  (revisados)  podemos  empezar  el  proceso 


iterativo  dado  en  (2),  con  lo  cual  obtenemos  otro  conjunto  mas  de  valores  de  los  coeficientes  p.  Podemos 
seguir  iterando  (o  linealizando)  de  esta  forma  hasta  que  no  haya  cambios  sustanciales  en  los  valores  de  los 


coeficientes  /).  En  el  ejemplo  14.1  se  requirieron  cinco  iteraciones,  pero  para  el  ejemplo  de  la  funcion  Cobb- 
Douglas  de  Mexico  (ejemplo  14.2)  se  necesitaron  32  iteraciones.  No  obstante,  la  logica  de  estas  iteraciones 
es  el  procedimiento  que  acabamos  de  ejemplificar. 

Para  la  estructura  de  las  comisiones  del  fondo  mutualista  de  la  seccion  14.3,  las  Y*,X\  y  X2  se  presentan 
en  la  tabla  14.4  tal  como  aparecen  en  (6);  los  datos  basicos  se  proporcionan  en  la  tabla  14.1.  Con  base  en 
estos  valores,  los  resultados  de  la  regresion  correspondientes  a  (7)  son: 


Variable  dependiente:  Y* 
Metodo:  Mlnimos  cuadrados 


Variable 

Coef iciente 

Error  estandar 

Estadlstico  t 

Probabilidad 

Xi 

0 . 022739 

0 . 014126 

1 .609705 

0 . 1385 

X2 

-0 . 010693 

0 . 000790 

-13 . 52900 

0 . 0000 

R2  =  0.968324  Estadlstico  d  de  Durbin-Watson  =  0.308883 

Ahora,  con  (8),  el  lector  puede  verificar  que 


P*  =  0.4727  y  /S2*  =-  0.00069 


(9) 
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TAB  LA  14.4 

Y* 

Xi 

x2 

0.067744 

1.005013 

0.226128 

0.034928 

1.051271 

2.365360 

-0.013327 

1.105171 

4.973269 

-0.062825 

1.161834 

7.842381 

-0.109831 

1.221403 

10.99262 

-0.154011 

1.284025 

14.44529 

-0.195936 

1.349859 

18.22309 

-0.236580 

1.419068 

22.35031 

-0.276921 

1.491825 

26.85284 

-0.317740 

1.568312 

31.75832 

-0.397464 

1.733253 

42.89801 

-0.446153 

1.822119 

49.19721 

Compare  estos  numeros  con  las  conjeturas  iniciales  de  0.45  y  0.01,  respectivamente,  para  los  dos  pa- 
rametros.  Con  las  nuevas  estimaciones  dadas  en  (9)  podemos  comenzar  el  procedimiento  iterativo  una  vez 
mas  y  seguirlo  hasta  que  haya  “convergencia”  en  el  sentido  de  que  la  rutina  final  de  estimaciones  no  difiera 
mucho  de  la  rutina  anterior.  Por  supuesto,  necesitara  menos  iteraciones  si  la  conjetura  inicial  esta  mas 
proxima  a  los  valores  finales.  Asimismo,  observe  que  solo  utilizamos  el  termino  lineal  de  la  expansion  de 
series  de  Taylor.  Si  fuese  a  utilizar  terminos  cuadraticos  o  superiores  en  la  expansion,  tal  vez  alcance  los 
valores  finales  con  mayor  rapidez.  Pero  en  muchas  aplicaciones  la  aproximacion  lineal  ha  demostrado  ser 
muy  adecuada. 
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Modelos  de  regresion  de 
respuesta  cualitativa 

En  todos  los  modelos  de  regresion  considerados  hasta  ahora,  supusimos  que  la  regresada,  la 
variable  dependiente  o  la  variable  de  respuesta  Y  era  cuantitativa,  mientras  que  las  variables  ex- 
plicativas  podian  ser  cuantitativas  o  cualitativas,  o  una  mezcla  de  las  dos.  De  hecho,  en  el  capitulo 
9,  sobre  variables  dicotomas,  vimos  como  se  introducen  las  regresoras  dicotomas  en  un  mode- 
lo  de  regresion  y  el  papel  que  desempenan  en  situaciones  especificas. 

En  este  capitulo  consideraremos  modelos  de  regresion  en  los  cuales  la  variable  dependiente 
o  de  respuesta  puede  ser  en  si  misma  de  naturaleza  cualitativa.  Aunque  los  modelos  de  regresion 
de  respuesta  cualitativa  cada  vez  son  mas  comunes  en  diversas  areas  de  las  ciencias  sociales  y 
la  investigacion  medica,  plantean  interesantes  retos  respecto  de  su  calculo  y  estimacion.  En  este 
capitulo  solo  abordaremos  algunos  temas  importantes  de  esta  area,  y  dejamos  los  detalles  para 
libros  mas  especializados.1 


15.1  Naturaleza  de  los  modelos  de  respuesta  cualitativa 


Suponga  que  deseamos  estudiar  la  participation  en  la  fuerza  laboral  (PFL)  de  los  hombres  adul- 
tos.  Como  un  adulto  esta  en  la  fuerza  laboral  o  no  lo  esta,  la  PFL  es  una  decision  de  si  o  no.  Por 
consiguiente,  la  variable  de  respuesta,  o  regresada,  solo  puede  adquirir  dos  valores;  por  ejemplo, 
1  si  la  persona  esta  en  la  fuerza  laboral  y  0  si  no  lo  esta.  En  otras  palabras,  la  regresada  es  una 
variable  binaria,  o  dicotoma.  La  investigacion  en  economia  del  trabajo  indica  que  la  PFL  es 
una  funcion  de  la  tasa  de  desempleo,  tasa  del  salario  promedio,  escolaridad,  ingreso  familiar, 
etcetera. 

Otro  ejemplo:  piense  en  las  elecciones  presidenciales  de  Estados  Unidos.  Suponga  que  hay 
dos  partidos  politicos,  el  Democrata  y  el  Republicano.  La  variable  dependiente  en  este  caso  es  la 
eleccion  de  voto  entre  ambos  partidos  politicos.  Suponga  que  Y—  1  si  el  voto  es  para  el  candidato 
democrata  y  Y  —  0  si  el  voto  es  republicano.  El  economista  Ray  Fair,  de  la  Universidad  Yale,  y 
otros  cientificos  de  la  politica  han  efectuado  una  gran  cantidad  de  trabajo  de  investigacion  sobre 
este  tema.2  Algunas  variables  en  la  eleccion  del  voto  son  la  tasa  del  crecimiento  del  PIB,  las  tasas 


1  En  un  nivel  introductorio,  el  lector  puede  encontrar  muy  utiles  las  siguientes  fuentes:  Daniel  A.  Powers  y  Yu 
Xie,  Statistical  Methods  for  Categorical  Data  Analysis,  Academic  Press,  2000;  John  H.  Aldrich  y  Forrest  Nelson, 
Linear  Probability,  Logit  and  Probit  Models,  Sage,  1 984;  y  Tim  Futing  Liao,  interpreting  Probability  Models:  Logit, 
Probit  and  Other  Generalized  Linear  Models,  Sage,  1 994.  Para  una  revision  muy  completa  de  la  bibliograffa, 
vease  G.S.  Maddala,  Limited-Dependent  and  Qualitative  Variables  in  Econometrics,  Cambridge  University  Press, 
1983. 

2  Vease,  por  ejemplo,  Ray  Fair,  "Econometrics  and  Presidential  Elections",  journal  of  Economic  Perspective, 
verano,  1 996,  pp.  89-102,  y  Machael  S.  Lewis-Beck,  Economics  and  Elections:  The  Major  Western  Democracies, 
University  of  Michigan  Press,  Ann  Arbor,  1980. 
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de  desempleo  e  inflation,  si  el  candidato  se  va  a  reelegir,  etc.  Para  nuestros  propositos,  lo  impor- 
tante  es  notar  que  la  regresada  es  una  variable  cualitativa. 

Podemos  pensar  en  otros  ejemplos  en  los  que  la  regresada  es  cualitativa  por  naturaleza.  Por 
consiguiente,  una  familia  posee  o  no  posee  casa,  tiene  seguro  contra  invalidez  o  no  lo  tiene, 
ambos  conyuges  estan  en  la  fuerza  laboral  o  solo  uno  de  ellos  lo  esta.  En  forma  similar,  un  de- 
terminado  farmaco  es  eficaz  para  curar  una  enfermedad  o  no  lo  es.  Una  empresa  decide  declarar 
el  rendimiento  de  sus  acciones  u  ocultarlo,  un  senador  decide  votar  en  favor  de  un  impuesto  o  en 
contra,  el  presidente  decide  vetar  una  ley  o  aprobarla,  etcetera. 

No  tenemos  que  restringir  la  variable  de  respuesta  a  un  si  o  no,  o  solo  a  categorias  dicotomas. 
De  regreso  con  el  ejemplo  de  las  elecciones  presidenciales,  suponga  que  existen  tres  partidos: 
el  Democrata,  el  Republicano  y  el  Independiente.  La  variable  de  respuesta  en  este  caso  es  trico- 
toma.  En  general,  podemos  tener  una  variable  de  respuesta  policotoma  (o  de  categoria  multi¬ 
ple). 

En  primer  lugar,  lo  que  pretendemos  es  considerar  la  regresada  dicotoma  y  luego  analizar  di- 
versas  extensiones  del  modelo  basico.  Pero  antes,  es  importante  hacer  hincapie  en  una  diferencia 
fundamental  entre  un  modelo  de  regresion  en  el  que  la  regresada  Y  es  cuantitativa  y  un  modelo 
en  el  que  es  cualitativa. 

En  un  modelo  en  donde  Y  es  cuantitativa,  el  objetivo  consiste  en  estimar  su  valor  esperado,  o 
media  esperada,  dados  los  valores  de  las  regresoras.  En  terminos  del  capitulo  2,  lo  que  deseamos 
es  obtener  E(Yt  \  Xu,  Xu, . . . ,  X&),  donde  las X son  las  regresoras,  tanto  cuantitativas  como  cuali- 
tativas.  En  los  modelos  en  donde  Y  es  cualitativa,  el  objetivo  es  encontrar  la  probabilidad  de  que 
un  acontecimiento  suceda,  como  votar  por  el  candidato  democrata,  poseer  una  casa,  pertenecer 
a  un  sindicato,  practicar  algiin  deporte,  etc.  Por  tanto,  los  modelos  de  regresion  con  respuestas 
cualitativas  a  menudo  se  conocen  como  modelos  de  probabilidad. 

En  lo  que  resta  de  este  capitulo  buscaremos  respuestas  a  las  siguientes  preguntas: 

1.  ^Como  se  estiman  los  modelos  de  regresion  con  respuestas  cualitativas?,  ^simplemente  se 
estiman  con  los  procedimientos  usuales  de  MCO? 

2.  (;Sc  presentan  problemas  de  inferencia  especiales?  En  otras  palabras,  /,el  procedimiento  de 
pruebas  de  hipotesis  se  diferencia  de  los  que  hemos  estudiado  hasta  este  momento? 

3.  Si  una  regresada  es  cualitativa,  ^como  se  mide  la  bondad  de  ajuste  de  dichos  modelos?,  ^tiene 
algun  valor  la  R2  convencionalmente  calculada  para  tales  modelos? 

4.  Una  vez  rebasado  el  caso  de  la  regresada  dicotoma,  ^como  se  estiman  e  interpretan  los  mode¬ 
los  de  regresion  policotomos?  Asimismo,  ,',061110  se  trabaja  con  modelos  en  los  que  la  regre¬ 
sada  es  ordinal;  es  decir,  consiste  en  una  variable  categorica  ordenada,  como  la  escolaridad 
(menos  de  ocho  anos,  de  ocho  a  1 1  anos,  12  anos  y  13  anos  o  mas),  o  la  regresada  es  nominal, 
en  la  que  no  existe  un  orden  inherente,  como  el  origen  etnico  (bianco,  negro,  hispano,  asiatico, 
etcetera)? 

5.  (;C6mo  se  elaboran  los  modelos  para  fenomenos  como  el  numero  anual  de  visitas  al  medico,  la 
cantidad  de  patentes  que  registra  una  empresa  en  un  ano  determinado,  el  numero  de  articulos 
publicados  por  un  profesor  universitario  durante  un  ano,  el  numero  de  llamadas  telefonicas 
recibidas  en  un  lapso  de  cinco  minutos  o  la  cantidad  de  automoviles  que  pasan  por  una  caseta 
de  cobro  durante  cinco  minutos?  Dichos  fenomenos,  llamados  datos  de  conteo,  o  sucesos 
raros,  son  un  ejemplo  del  proceso  (de  probabilidad)  de  Poisson. 

En  este  capitulo  responderemos  varias  de  estas  interrogantes  en  un  nivel  elemental,  pues  al- 
gunos  temas  son  de  caracter  muy  elevado  y  requieren  un  conocimiento  matematico  y  estadistico 
mayor  que  el  supuesto  para  este  libro.  Consulte  la  bibliografia  en  las  notas  para  conocer  con 
mayor  detalle  la  materia. 

Comenzaremos  el  estudio  de  los  modelos  con  respuesta  cualitativa,  en  primer  lugar,  el  modelo 
de  regresion  con  respuesta  binaria.  Hay  cuatro  metodos  para  crear  un  modelo  de  probabilidad 
para  una  variable  de  respuesta  binaria: 

1 .  El  modelo  lineal  de  probabilidad  (MLP) 
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2.  El  modelo  logit 

3.  El  modelo  probit 

4.  El  modelo  tobit 

En  vista  de  su  simplicidad  relativa  y  debido  a  que  se  estima  mediante  mlnimos  cuadrados 
ordinarios  (MCO),  estudiaremos  primero  el  MLP,  y  dejamos  los  otros  tres  modelos  para  las  sec- 
ciones  subsiguientes. 


15.2  Modelo  lineal  de  probabilidad  (MLP) 


Para  establecer  las  ideas,  considere  el  siguiente  modelo  simple: 

Yi  =  Pi  +  foXi  +  ut  (15.2.1) 

donde  X  —  el  ingreso  familiar,  y  Y  —  1  si  la  familia  tiene  casa  propia  y  0  si  la  familia  no  tiene 
casa  propia. 

El  modelo  (15.2.1)  parece  un  modelo  de  regresion  lineal  comun,  pero  debido  a  que  la  variable 
regresada  es  binaria,  o  dicotoma,  se  denomina  modelo  lineal  de  probabilidad  (MLP).  Esto  es 
porque  la  expectativa  condicional  de  Yj  dado  A),  E{Y,  \  X ,)  puede  interpretarse  como  la probabili- 
dad  condicional  de  que  el  suceso  tenga  lugar  dado  A,  ;  es  decir,  Pr  (J)  =  1 1  Xj).  Asi,  en  el  ejemplo, 
E( Yj  |  Xj)  da  la  probabilidad  de  que  una  familia  tenga  casa  propia  y  perciba  ingresos  por  una  cierta 
cantidad  Xj. 

La  justificacion  del  nombre  MLP  para  modelos  como  (15.2.1)  es  la  siguiente:  En  el  supuesto 
de  que  E{uj)  =  0,  como  de  costumbre  (para  obtener  estimadores  insesgados),  obtenemos 

E{Yj  |  Xj)  =Pi+  faXj  (15.2.2) 

Ahora,  si  P,  —  probabilidad  de  que  Y,  =  1  (es  decir,  de  que  el  suceso  ocurra)  y  (1  —  P,)  =  pro¬ 
babilidad  de  que  Yj=  0  (es  decir,  de  que  el  suceso  no  ocurra),  la  variable  Yj  tiene  la  siguiente 
distribucion  (de  probabilidad): 


Yj  Probabilidad 

0  1  -P, 

1  Pi 

Total  1 


Es  decir,  Yj  sigue  la  distribucion  de  probabilidades  de  Bernoulli. 

Por  consiguiente,  por  la  definition  de  esperanza  matematica,  obtenemos 

E(Yj)  =  0(1  -  Pi)  +  l(Pj)  =  Pj  (15.2.3) 

A1  comparar  (15.2.2)  con  (15.2.3),  igualamos 

E(Jj  |  Xj)  =  ft  +  p2Xj  =  Pj  (15.2.4) 

es  decir,  la  esperanza  condicional  del  modelo  (15.2.1)  en  realidad  se  interpreta  como  la  proba¬ 
bilidad  condicional  de  Yj.  En  general,  la  esperanza  de  una  variable  aleatoria  Bernoulli  esta  dada 
por  la  probabilidad  de  que  esa  variable  sea  igual  a  1 .  Por  cierto,  observe  que  si  existen  n  intentos 
independientes,  cada  uno  con  una  probabilidad  p  de  exito  y  una  probabilidad  (1  —  p  )  de  fracaso, 
y  X  de  tales  intentos  representa  el  numero  de  exitos,  se  dice  que  X  sigue  una  distribucion  bino¬ 
mial.  La  media  de  la  distribucion  binomial  es  np,  y  su  varianza,  np(  I  —  />).  El  termino  exito  se 
define  dentro  del  contexto  del  problema. 
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Como  la  probabilidad  P,  debe  encontrarse  entre  0  y  1 ,  tenemos  la  restriction 

0  <  E(Yi  |  Xt)  <  1  (15.2.5) 

es  decir,  la  esperanza  condicional  (o  probabilidad  condicional)  debe  encontrarse  entre  0  y  1 . 

Del  analisis  anterior  pareceria  que  los  MCO  pueden  extenderse  sin  dificultad  a  modelos  de 
regresion  con  variable  dependiente  binaria.  Asi,  tal  vez  no  haya  ninguna  novedad  aqui.  Por  des- 
gracia,  no  es  el  caso,  pues  el  MLP  plantea  diversos  problemas,  a  saber: 


No  normalidad  de  las  perturbaciones  u ■, 

Aunque  MCO  no  requiere  que  las  perturbaciones  (las  u,)  esten  normalmente  distribuidas,  supu- 
simos  que  lo  estaban  para  fines  de  inferencia  estadistica.3  Pero  el  supuesto  de  normalidad  para  u, 
ya  no  se  mantiene  en  los  MLP  porque,  al  igual  que  Yh  u,  solo  toma  dos  valores;  es  decir,  tambien 
sigue  la  distribution  de  Bernoulli.  Para  ver  esto,  escribimos  (15.2.1)  como 

ut  =  Yi  -fa-  fi2Xi  (15.2.6) 

La  distribucion  de  probabilidades  de  u,  es 


u,  Probabilidad 

Cuando  V,  =  1  1  —  /3n  —  fa  X;  P /  (15.2.7) 

Cuando  V)  =  0  —fa  —  fa  X/  (1  —  Pi) 


Obvio,  no  puede  suponerse  que  u,  este  normalmente  distribuida;  en  realidad  sigue  la  distribu¬ 
cion  de  Bernoulli. 

Pero  el  no  cumplimiento  del  supuesto  de  normalidad  quiza  no  sea  tan  critico  como  parece 
porque  sabemos  que  las  estimaciones  puntuales  de  MCO  aun  permanecen  insesgadas  (recuerde 
que  si  el  objetivo  es  la  estimation  puntual,  el  supuesto  de  normalidad  resulta  innecesario).  Ade- 
mas,  puede  demostrarse  que,  conforme  el  tamano  de  la  muestra  aumenta  indefinidamente,  los 
estimadores  de  MCO  tienden  a  tener  una  distribucion4  normal,  segun  la  teoria  estadistica.  Por 
consiguiente,  en  muestras  grandes,  la  inferencia  estadistica  del  MLP  seguira  el  procedimiento  de 
MCO  usual  segun  el  supuesto  de  normalidad. 


Varianzas  heteroscedasticas  de  las  perturbaciones 

Aunque  E(uj)  —  0  y  cov  (u„  uj)  —  0  para  i  ^  j  (es  decir,  no  hay  correlation  serial),  ya  no  es 
posible  sostener  la  afirmacion  de  que  las  perturbaciones  en  el  MLP  son  homoscedasticas.  Esto, 
sin  embargo,  no  debe  sorprender.  Como  demuestra  la  teoria  estadistica,  para  una  distribucion  de 
Bernoulli,  la  media  y  la  varianza  teoricas  son  p  v  p(  I  —  p)  respectivamente,  donde  p  es  la  proba¬ 
bilidad  de  exito  (es  decir,  de  que  algo  suceda),  lo  cual  revela  que  la  varianza  es  una  funcion  de  la 
media.  Por  tanto,  la  varianza  del  error  es  heteroscedastica. 

Para  la  distribucion  del  termino  de  error  dado  en  (15.2.7),  si  se  aplica  la  definicion  de  va¬ 
rianza,  el  lector  verificara  que  (vease  el  ejercicio  15.10) 

var(w,)  =  Pi{\  —  Pt)  (15.2.8) 


3  Recuerde  que  recomendamos  verificar  el  supuesto  de  normalidad  mediante  pruebas  de  normalidad  ade- 
cuadas,  como  la  de  Jarque-Bera. 

4  La  prueba  se  basa  en  el  teorema  central  del  Ifmite  y  se  encuentra  en  E.  Malinvaud,  Statistical  Methods  of 
Econometrics,  Rand  McNally,  Chicago,  1966,  pp.  195-197.  Si  las  regresoras  se  consideran  estocasticas  y  estan 
normalmente  distribuidas  en  forma  conjunta,  las  pruebas  F y  tson  aun  utiles  aunque  las  perturbaciones  no 
sean  normales.  Tambien  considere  que,  conforme  el  tamano  de  la  muestra  se  incrementa  de  manera  indefi- 
nida,  la  distribucion  binomial  converge  a  la  distribucion  normal. 
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Es  decir,  la  varianza  del  termino  de  error  en  el  MLP  es  heteroscedastica.  Como  P,  =  E(Yi  \  Xt)  = 
P\  +  Xt,  la  varianza  de  u,  depende,  al  final,  de  los  valores  de  Xy  por  tanto  no  es  homoscedas- 
tica. 

Ya  sabemos  que,  en  presencia  de  heteroscedasticidad,  los  estimadores  de  MCO,  aunque  in- 
sesgados,  no  son  eficientes;  es  decir,  no  tienen  varianza  minima.  Pero,  de  nuevo,  el  problema 
de  heteroscedasticidad,  al  igual  que  el  de  la  no  normalidad,  no  es  insuperable.  En  el  capitulo  1 1 
analizamos  diversos  metodos  para  tratar  el  problema  de  heteroscedasticidad.  Como  la  varianza  de 
iij  depende  de  E(Y,  \  Xt),  una  forma  de  resolver  el  problema  de  heteroscedasticidad  es  transformar 
el  modelo  (15.2.1)  dividiendo  ambos  lados  del  modelo  (15.2.1)  entre 

V/£(})|Y()[I  -  £(E;|Y!)]  =  JPiil-P,)  =  digamos 


o  sea 

-y=  =  -j=  +  fi2^L  +  -j=  (15.2.9) 

y/Wi  JWi  JWi  Jwi 

Como  puede  verificar  con  facilidad,  el  termino  de  error  transformado  en  (15.2.9)  es  homosce- 
dastico.  Por  consiguiente,  despues  de  estimar(15.2.1),  ahorapodemos  calcular  ( 15.2.9)  mediante 
MCO,  lo  cual  no  es  otra  cosa  que  los  minimos  cuadrados  ponderados  (MCP),  donde  w,  son  las 
ponderaciones. 

En  teoria,  lo  que  acabamos  de  describir  es  correcto;  pero  en  la  practica,  se  desconoce  la 
verdadera  E(Yl  \  Xt),  y  en  consecuencia,  se  desconocen  las  ponderaciones  w,.  Para  calcularlas, 
utilizamos  el  siguiente  procedimiento,  que  consta  de  dos  pasos:5 

Paso  1.  Efectue  la  regresion  (15.2.1)  por  MCO  sin  considerar  el  problema  de  heteros¬ 
cedasticidad  y  obtenga  Y,  =  el  valor  estimado  de  la  verdadera  E(  Y,  \  Xj).  Luego  obtenga 
w,  —  Yi(  1  —  %),  el  valor  estimado  de  w,-. 

Paso  2.  Con  el  vv,  estimado  transforme  los  datos  como  en  (15.2.9)  y  estime  la  ecuacion 
transformada  mediante  MCO  (es  decir,  minimos  cuadrados  ponderados). 

Aunque  en  breve  ilustraremos  este  procedimiento  en  nuestro  ejemplo,  cabe  senalar  que  se  pueden 
usar  los  errores  estandar  corregidos  por  heteroscedasticidad  de  White  para  resolver  la  heterosce¬ 
dasticidad,  siempre  que  la  muestra  sea  razonablemente  grande. 

Pero  aunque  corrijamos  la  heteroscedasticidad,  es  necesario  resolver  primero  otro  problema 
que  afecta  al  MLP. 


No  cumplimiento  de  0  <  E(Yi\Xj)  <  1 

Como  E(Yj  |  Xj)  en  los  modelos  lineales  de  probabilidad  mide  la  probabilidad  condicional  de  que 
ocurra  el  suceso  Y  dado  X,  esta  debe  encontrarse  necesariamente  entre  0  y  1 .  Aunque  a  priori  esto 
es  verdadero,  no  hay  garantia  de  que  >  „  los  estimadores  de  E{  Y,  \  Xj),  cumplan  necesariamente 
esta  restriccion,  y  este  es  el  verdadero  problema  con  la  estimacion  del  MLP  por  MCO.  Esto 
sucede  porque  MCO  no  toma  en  cuenta  la  restriccion  0  <  E(  >))  <  1  (una  restriccion  de  desigual- 
dad).  Elay  dos  formas  de  establecer  si  el  >,  estimado  se  encuentra  entre  0  y  1.  Una  es  estimar  el 
MLP  mediante  el  metodo  usual  de  MCO  y  determinar  si  el  >,  estimado  se  encuentra  entre  0  y  1 .  Si 
algunos  valores  son  menores  que  0  (es  decir,  negativos),  para  esos  casos  se  supone  que  %  es  cero; 
si  son  mayores  que  1,  se  supone  que  son  1.  El  segundo  procedimiento  es  disenar  una  tecnica  de 
estimacion  que  garantice  que  las  probabilidades  condicionales  estimadas  Yt  se  encuentren  entre 
0  y  1 .  Los  modelos  logit  y  probit  analizados  mas  adelante  garantizaran  que  las  probabilidades 
estimadas  se  encuentren  con  seguridad  entre  los  limites  logicos  0  y  1 . 


5  Para  conocer  la  justificacion  de  este  procedimiento,  vease  Arthur  S.  Goldberger,  Econometric  Theory,  John 
Wiley  &  Sons,  Nueva  York,  1 964,  pp.  249-250.  La  justificacion  consiste  basicamente  en  la  de  muestras  gran- 
des  que  analizamos  en  el  tema  de  los  minimos  cuadrados  generalizados  estimados  o  factibles,  en  el  capftulo 
sobre  heteroscedasticidad  (seccion  1 1 .6). 


546 


Parte  Tres  Temas  de  econometria 


Valor  cuestionable  de  R2  como  medida  de  la  bondad 
del  ajuste 

R2  calculada  de  manera  convencional  tiene  un  valor  limitado  en  los  modelos  de  respuesta  dico- 
toma.  Para  ver  la  razon,  considere  la  figura  15.1.  Dado  un  X,  Y  es  igual  a  0  o  a  1.  Por  consiguien- 
te,  todos  los  valores  de  Y  se  encontraran  en  el  eje  Xo  en  la  llnea  correspondiente  a  1.  Entonces, 
por  lo  general,  no  se  espera  que  haya  un  MLP  que  ajuste  bien  a  tal  dispersion,  bien  sea  el  MLP 
no  restringido  (figura  15.1a)  o  el  MLP  truncado  o  restringido  (figura  15.1b),  un  MLP  estimado 
en  forma  tal  que  no  caiga  por  fuera  de  la  banda  logica  0-1.  Como  resultado,  es  probable  que  el 
calculo  convencional  de  R2  sea  muy  inferior  a  1  en  estos  modelos.  En  la  mayoria  de  las  aplicacio- 
nes  practicas,  R2  se  encuentra  entre  0.2  y  0.6.  El  valor  de  R2  en  ese  tipo  de  modelos  sera  elevado, 
por  ejemplo,  superior  a  0.8,  solo  cuando  la  dispersion  observada  este  muy  concentrada  alrededor 
de  los  puntos  A  y  B  (figura  15.1c),  pues  en  ese  caso  es  facil  modificar  la  linea  uniendo  los  puntos 
A  y  B.  En  este  caso,  el  valor  pronosticado  de  Yt  estara  muy  cerca  de  0  o  de  1 . 


FIGURA  15.1 

Modelos  lineales  de 
probabilidad. 


a) 


b) 


MLP 


c) 
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EJEMPLO  15.1 

MLP:  un  ejemplo 
numerico 


TAB  LA  15.1 

Datos  hipoteticos  sobre 
propiedad  de  vivienda 
(Y  =  1  si  tiene  casa 
propia,  0  de  lo  contra- 
rio)  e  ingreso  X  (miles 
de  dolares) 


Por  estas  razones,  John  Aldrich  y  Forrest  Nelson  sostienen  que  “debe  evitarse  el  coeficiente  de 
determination  como  estadistico  de  resumen  en  modelos  con  variable  dependiente  cualitativa”.6 


Para  ilustrar  algunos  puntos  senalados  sobre  el  MLP  en  la  section  anterior,  presentamos  un  ejem¬ 
plo  numerico.  La  tabla  15.1  muestra  datos  inventados  sobre  propiedad  de  vivienda  Y  (1  =  tiene 
casa  propia,  0  =  no  tiene  casa  propia)  e  ingreso  familiar  X  (miles  de  dolares)  de  40  familias.  Con 
base  en  esta  information,  el  MLP  estimado  por  MCO  fue  el  siguiente: 

Yi  =  -0.9457  +  0.1 021 X, 

(0.1228)  (0.0082)  (15.2.10) 

t=  (-7.6984)  (12.515)  R2  =  0.8048 

Primero,  interpretemos  esta  regresion.  El  intercepto  de  —0.9457  da  la  "probabilidad"  de  que 
una  familia  con  ingreso  cero  tenga  una  casa  propia.  Como  este  valor  es  negativo  y  la  probabi¬ 
lidad  no  puede  ser  negativa,  consideramos  que  este  valor  es  cero,  lo  cual  es  razonable  en  este 
caso.7  El  valor  de  la  pendiente  de  0.1021  significa  que  para  un  cambio  unitario  en  el  ingreso 
(aqui,  $1  000),  en  promedio,  la  probabilidad  de  tener  casa  propia  aumenta  en  0.1 021  o  alrede- 
dor  de  10%.  Desde  luego,  con  un  nivel  de  ingreso  determinado,  podemos  estimar  la  probabili¬ 
dad  real  de  tener  casa  propia  a  partir  de  (15.2.10).  Asf,  para  X=  12  ($12  000),  la  probabilidad 
estimada  de  tener  casa  propia  es 

(Yi  |  X  =  1 2)  =  -0.9457  +  1 2(0.1 021 ) 

=  0.2795 


Familia 

Y 

X 

Familia 

Y 

X 

1 

0 

8 

21 

1 

22 

2 

1 

16 

22 

1 

16 

3 

1 

18 

23 

0 

12 

4 

0 

11 

24 

0 

11 

5 

0 

12 

25 

1 

16 

6 

1 

19 

26 

0 

11 

7 

1 

20 

27 

1 

20 

8 

0 

13 

28 

1 

18 

9 

0 

9 

29 

0 

11 

10 

0 

10 

30 

0 

10 

11 

1 

17 

31 

1 

17 

12 

1 

18 

32 

0 

13 

13 

0 

14 

33 

1 

21 

14 

1 

20 

34 

1 

20 

15 

0 

6 

35 

0 

11 

16 

1 

19 

36 

0 

8 

17 

1 

16 

37 

1 

17 

18 

0 

10 

38 

1 

16 

19 

0 

8 

39 

0 

7 

20 

1 

18 

40 

1 

17 

(i continua ) 


6  Aldrick  y  Nelson,  op.  cit.,  p.  1 5.  Para  otras  medidas  de  bondad  de  ajuste  en  modelos  con  variables  regre- 
sadas  dicotomas,  vease  T.  Amemiya,  "Qualitative  Response  Models",  Journal  of  Economic  Literature,  vol.  19, 
1981,  pp.  331-354. 

7  Ceneralmente,  se  puede  interpretar  un  valor  muy  negativo  como  una  probabilidad  casi  nula  de  poseer  una 
casa  propia  cuando  el  ingreso  es  cero. 
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EJEMPLO  15.1 

(i continuation ) 


Es  decir,  la  probabilidad  de  que  una  familia  con  un  ingreso  de  $12  000  tenga  una  casa  propia 
es  de  alrededor  de  28%.  La  tabla  15.2  muestra  las  probabilidades  estimadas,  Y,,  para  los  diver- 
sos  niveles  de  ingreso  enumerados  en  la  tabla.  La  caracterfstica  mas  sobresaliente  de  esta  tabla 
es  que  seis  valores  estimados  son  negativos  y  seis  valores  exceden  de  uno,  lo  cual  demuestra 
claramente  el  punto  ya  planteado  de  que,  aunque  E(Y )  \  Xj)  es  positivo  y  menor  que  1 ,  no  necesa- 
riamente  se  cumple  que  sus  estimadores  Y,  sean  positivos  o  inferiores  a  1 .  Esta  es  una  razon  por 
la  cual  el  MLP  no  es  el  modelo  recomendado  cuando  la  variable  dependiente  es  dicotoma. 

Aunque  todos  los  Y )  estimados  fueran  positivos  e  inferiores  a  1,  el  MLP  todavfa  sufre  del 
problema  de  heteroscedasticidad,  lo  cual  se  ve  facilmente  de  (15.2.8).  Como  consecuencia, 
no  podemos  confiar  en  los  errores  estandar  estimados  que  se  reportan  en  (15.12.10).  (^Por 
que?)  Pero  podemos  utilizar  el  procedimiento  de  mfnimos  cuadrados  ponderados  (MCP),  ya 
analizado,  para  obtener  estimaciones  mas  eficientes  de  los  errores  estandar.  Las  ponderaciones 
necesarias,  w„  requeridas  para  la  aplicacion  de  MCP  se  muestran  tambien  en  la  tabla  1 5.2.  Pero 
observe  que  algunos  Vjson  negativos  y  otros  exceden  el  valor  de  uno,  los  Wj  correspondientes  a 
estos  valores  seran  negativos.  Por  tanto,  no  podemos  utilizar  estas  observaciones  en  MCP  (^por 
que?),  con  lo  cual  se  reduce  el  numero  de  observaciones,  de  40  a  28  en  este  ejemplo.8  Al  omitir 
estas  observaciones,  la  regresion  por  MCP  es 


-1.2456-^=4-  0.1196^= 

V  wi  V  Wj  y/Wj 

(0.1206)  (0.0069) 

t=  (-10.332)  (17.454)  R2  =  0.9214 

TABLA  1 5.2  Y real,  Y cstimado  y  ponderaciones  Wj  para  el  ejemplo  de  propiedad  de  vivienda 

(15.2.11) 

Yj 

Yj 

IV/* 

Yj 

Yj 

IV/* 

0 

-0.129* 

1 

1 .301  * 

1 

0.688 

0.2146 

0.4633 

1 

0.688 

0.2147 

0.4633 

1 

0.893 

0.0956 

0.3091 

0 

0.280 

0.2016 

0.4990 

0 

0.178 

0.1463 

0.3825 

0 

0.178 

0.1463 

0.3825 

0 

0.280 

0.2016 

0.4490 

1 

0.688 

0.2147 

0.4633 

1 

0.995 

0.00498 

0.0705 

0 

0.178 

0.1463 

0.3825 

1 

1.098t 

1 

1.0 971 

0 

0.382 

0.2361 

0.4859 

1 

0.893 

0.0956 

0.3091 

0 

-0.0265* 

0 

0.178 

0.1463 

0.3825 

0 

0.076 

0.0702 

0.2650 

0 

0.076 

0.0702 

0.2650 

1 

0.791 

0.1653 

0.4066 

1 

0.791 

0.1653 

0.4055 

1 

0.893 

0.0956 

0.3091 

0 

0.382 

0.2361 

0.4859 

0 

0.484 

0.2497 

0.4997 

1 

1.1 99^ 

1 

1.097t 

1 

1.0 97f 

0 

-0.333* 

0 

0.178 

0.1463 

0.3825 

1 

0.995 

0.00498 

0.0705 

0 

-0.129* 

1 

0.688 

0.2147 

0.4633 

1 

0.791 

0.1653 

0.4066 

0 

0.076 

0.0702 

0.2650 

1 

0.688 

0.2147 

0.4633 

0 

-0.129* 

0 

-0.231* 

1 

0.893 

0.0956 

0.3091 

1 

0.791 

0.1653 

0.4066 

*  Se  considera  igual  a  cero  para  evitar  que  las  probabilidades  sean  negativas. 

*  Se  considera  igual  a  uno  para  evitar  que  las  probabilidades  sean  mayores  que  uno. 

ty>(i  -  r,). 


8  Para  evitar  la  perdida  de  grados  de  libertad,  podemos  dejar  que  Y,  =  0.01  cuando  los  V,  estimados  sean  ne¬ 
gativos  y  Yj  =  0.99  cuando  superen  o  igualen  a  1 .  Vease  el  ejercicio  15.1. 
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EJEMPLO  15.1 

( continuation ) 


Estos  resultados  demuestran  que,  en  comparacion  con  (1 5.2.1 0),  los  errores  estandar  estimados 
son  menores  y,  correspondientemente,  las  razones  t  estimadas  (en  valores  absolutos)  son  mas 
grandes.  Pero  se  debe  tomar  este  resultado  con  cierta  reserva,  pues  al  estimar  (1 5.2.1 1 )  se  tuvie- 
ron  que  eliminar  12  observaciones.  Ademas,  como  los  w,  son  estimaciones,  los  procedimientos 
usuales  de  pruebas  de  hipotesis  estadfsticas  son  validos,  en  estricto  sentido,  en  muestras  grandes 
(vease  el  capftulo  1 1 ). 


15.3  Aplicaciones  del  MLP 


Hasta  la  aparicion  de  paquetes  de  computacion  para  estimar  los  modelos  logit  y  probit  (que  ana- 
lizaremos  en  breve),  el  MLP  era  muy  comun  debido  a  su  simplicidad.  A  continuacion  ilustramos 
algunas  de  estas  aplicaciones. 


EJEMPLO  15.2 

Estudio  de  Cohen, 
Reay  Lerman 9 


En  un  estudio  preparado  por  el  Departamento  del  Trabajo  de  Estados  Unidos,  Cohen,  Rea  y 
Lerman  examinaron  la  participacion  en  la  fuerza  laboral  de  varias  categorfas  de  trabajo  como 
funcion  de  diversas  variables  socioeconomicas  y  demograficas.  En  todas  sus  regresiones,  la  va¬ 
riable  dependiente  era  dicotoma,  con  un  valor  de  1  si  la  persona  pertenecfa  a  la  fuerza  laboral 
y  de  0  si  no  pertenecfa.  En  la  tabla  1 5.3  reproducimos  una  de  sus  diversas  regresiones  de  variable 
dependiente  dicotoma. 

Antes  de  interpretar  los  resultados,  observe  estas  caracterfsticas:  la  regresion  anterior  se  es- 
timo  con  MCO.  Para  corregir  por  heteroscedasticidad,  los  autores  utilizaron  el  procedimiento  de 
dos  etapas,  ya  descrito,  en  algunas  de  sus  regresiones,  pero  encontraron  que  los  errores  estandar 
de  las  estimaciones  asf  obtenidas  no  diferfan  materialmente  de  las  obtenidas  sin  la  correccion 
por  heteroscedasticidad.  Tal  vez  este  resultado  se  deba  al  tamano  total  de  la  muestra,  de  alre- 
dedor  de  25  000.  Debido  a  este  gran  tamano  de  muestra,  los  valores  t  estimados  pueden 
probarse  por  su  significancia  estadfstica  mediante  el  procedimiento  usual  de  MCO  aunque  el 
termino  de  error  adquiera  valores  dicotomos.  El  R2  estimado  de  0.1  75  puede  parecer  relativa- 
mente  bajo,  pero  en  vista  del  gran  tamano  de  la  muestra,  este  R2  aun  es  significativo  con  base 
en  la  prueba  F  (vease  la  seccion  8.4).  Por  ultimo,  observe  la  forma  como  los  autores  mezclaron 
variables  cuantitativas  y  cualitativas,  y  como  tomaron  en  cuenta  los  efectos  de  la  interaccion. 

De  regreso  a  la  interpretacion  de  los  resultados,  observamos  que  cada  coeficiente  de  pen- 
diente  da  la  tasa  de  cambio  en  la  probabilidad  condicional  del  suceso  que  ocurre  ante  un  cam- 
bio  unitario  en  el  valor  de  la  variable  explicativa.  Por  ejemplo,  el  coeficiente  de  —0.2753  que 
acompana  a  la  variable  "mas  de  65  anos"  significa  que,  si  se  mantienen  constantes  todos  los  de- 
mas  factores,  la  probabilidad  de  participacion  en  la  fuerza  laboral  de  mujeres  en  este  grupo 
de  edad  es  menor  en  alrededor  de  27%  (en  comparacion  con  la  categorfa  base  de  mujeres  con 
edades  entre  22  y  54  anos).  Con  el  mismo  razonamiento,  el  coeficiente  de  0.3061,  asociado  a 
la  variable  "mas  de  1 6  anos  de  escolaridad",  significa  que,  si  se  mantienen  constantes  todos  los 
demas  factores,  la  probabilidad  de  que  las  mujeres  con  esta  misma  escolaridad  participen  en  la 
fuerza  laboral  es  mas  alta  en  cerca  de  31%  (comparado  con  la  categorfa  base,  que  son  mujeres 
con  menos  de  cinco  anos  de  escolaridad). 

Ahora,  considere  el  termino  de  interaccion  estado  civil  y  edad.  La  tabla  muestra  que  la 
probabilidad  de  participacion  en  la  fuerza  laboral  es  mas  alta  en  cerca  de  29%  para  las  mujeres 
solteras  (comparado  con  la  categorfa  base)  y  mas  baja  en  alrededor  de  28%  para  las  mujeres  de 
mas  de  65  anos  de  edad  (de  nuevo,  en  relacion  con  la  categorfa  base).  Pero  la  probabilidad 
de  participacion  de  mujeres  solteras  y  mayores  de  65  anos  es  menor  en  cerca  de  20%  compa- 
rada  con  la  categorfa  base.  Esto  implica  que  es  probable  que  las  mujeres  solteras  mayores  de 
65  anos  participen  en  la  fuerza  laboral  en  mayor  proporcion  que  las  casadas  o  clasificadas  en  la 
categorfa  "otros"  que  tienen  mas  de  65  anos  de  edad. 

( continua ) 


9  Malcolm  S.  Cohen,  Samuel  A.  Rea,  Jr.,  y  Robert  I.  Lerman,  A  Micro  Model  of  Labor  Supply,  BLS  Staff  Paper  4, 
Departamento  de  Trabajo  de  Estados  Unidos,  1970. 


550  Parte  Tres  Temas  de  econometria 
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( continuation ) 


TAB  LA  1 5.3  Participacion  en  la  fuerza  laboral 

Regresion  de  mujeres,  mayores  de  22  anos,  que  viven  en  las  96  areas  estadisticas  metropolitanas 
estandar  (AEME)  mas  grandes  (variable  dependiente:  pertenecio  o  no  a  la  fuerza  laboral  durante 
1966) 


Variable  explicativa 

Coeficiente 

Razon  t 

Constante 

0.4368 

15.4 

Estado  civil 

Casada,  vive  con  el  esposo 

— 

— 

Casada,  otro 

0.1523 

13.8 

Soltera 

0.2915 

22.0 

Edad 

22-54 

— 

— 

55-64 

-0.0594 

-5.7 

mas  de  65 

-0.2753 

-9.0 

Anos  de  escolaridad 

0-4 

— 

— 

5-8 

0.1255 

5.8 

9-11 

0.1704 

7.9 

12-15 

0.2231 

10.6 

Mas  de  1 6 

0.3061 

13.3 

Tasa  de  desempieo  (1966),  % 

Menos  de  2.5 

— 

— 

2. 5-3.4 

-0.021  3 

-1.6 

3. 5-4.0 

-0.0269 

-2.0 

4.1 -5.0 

-0.0291 

-2.2 

Mas  de  5.1 

-0.0311 

-2.4 

Cambio  en  el  empleo  (1965-1966),  % 

Menor  que  3.5 

— 

— 

3.5-6.49 

0.0301 

3.2 

Mas  de  6.5 

0.0529 

5.1 

Oportunidades  relativas  de  empleo,  % 

Menos  de  62 

— 

— 

62-73.9 

0.0381 

3.2 

Mas  de  74 

0.0571 

3.2 

IFMJ,  $ 

Menos  de  1  500  y  negativo 

— 

— 

1  500-7  499 

-0.1451 

-15.4 

7  500  y  mas 

-0.2455 

-24.4 

Interaccion  (estado  civil  y  edad) 

Estado  civil  Edad 

Otro  55-64 

-0.0406 

-2.1 

Otro  Mas  de  65 

-0.1391 

-7.4 

Soltera  55-64 

-0.1104 

-3.3 

Soltera  Mas  de  65 

-0.2045 

-6.4 

Interaccion  (edad  y  anos  de  escolaridad  terminados) 

Edad  Anos  de  escolaridad 

Mas  de  65  5-8 

-0.0885 

-2.8 

Mas  de  65  9-1 1 

-0.0848 

-2.4 

Mas  de  65  1 2-1 5 

-0.1288 

-4.0 

Mas  de  65  1 6  y  mas 

-0.1628 

-3.6 

R2  =  0.175 

Num.  de  observaciones  =  25  153 


Nota:  —  indica  la  categoria  base  o  categoria  omitida. 

IFMJ:  Ingreso  familiar  menos  jornales  propios  e  ingresos  por  salarios. 

Fuente:  Malcolm  S.  Cohen,  Samuel  A.  Rea,  Jr.,  y  Robert  I.  Lerman,  A  Micro  Model  of  Labor  Supply ,  BLS  Staff  Paper  4,  Departamento 
de  trabajo  de  Estados  Unidos,  1970,  tabla  F-6,  pp.  212-213. 
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EJEMPLO  15.2 

( continuation ) 


Con  este  procedimiento  puede  interpretar  sin  dificultad  el  resto  de  los  coeficientes  dados 
en  la  tabla  15.3.  Con  esta  informacion  es  facil  obtener  las  estimaciones  de  las  probabilidades 
condicionales  de  la  participacion  de  la  fuerza  laboral  de  las  diversas  categories.  Asf,  si  deseamos 
encontrar  la  probabilidad  para  mujeres  casadas  (otras),  entre  22  y  54  arios  de  edad,  con  12  a 
15  anos  de  escolaridad,  con  una  tasa  de  desempleo  de  2.4  a  3.4%,  cambio  de  empleo  de  3.5 
a  6.49%,  oportunidades  relativas  de  empleo  de  74%  y  por  encima  y  con  un  IFMJ  de  $7  500  y 
mas,  obtenemos 

0.4368  +  0.1523  +  0.2231  -  0.0213  +  0.0301  +  0.0571  -  0.2455  =  0.6326 

En  otras  palabras,  la  probabilidad  de  la  participacion  de  las  mujeres  en  la  fuerza  laboral  con  las 
caracteristicas  anteriores  se  estima  en  alrededor  de  63%. 


EJEMPLO  15.3 

Prediction  de  la 
clasificacion  de 
bonos 


Con  base  en  datos  de  series  de  tiempo  agrupadas  y  de  corte  transversal  de  200  bonos  Aa  (alta 
calidad)  y  Baa  (calidad  media)  de  1 961  a  1 966,  Joseph  Cappelleri  estimo  el  siguiente  modelo  de 
prediccion  para  la  clasificacion  de  bonos.10 

Y\  —  /h  +  2  2C 2/  +  @3  X  3/  +  @4X4 i  +  ris  Xsi  +  M/ 

donde  Y,  =  1  si  la  clasificacion  del  bono  es  Aa  (clasificacion  de  la  empresa  Moody) 

=  0  si  la  clasificacion  del  bono  es  Baa  (clasificacion  de  la  empresa  Moody) 

X2  =  razon  de  capitalizacion  de  la  deuda,  una  medida  de  apalancamiento 
valor  en  dolares  de  la  deuda  de  largo  plazo 

= - t - m 1 — : - t — r. - .  ,  ■  1 00 

valor  en  dolares  de  la  capitalizacion  total 
X3  =  tasa  de  rentabilidad 

valor  en  dolares  del  ingreso  despues  de  impuestos 
valor  en  dolares  de  los  activos  totales  netos 

X4  =  desviacion  estandar  de  la  tasa  de  rentabilidad,  una  medida  de  la  variabilidad  de  la 
tasa  de  rentabilidad 

X5  =  activos  totales  netos  (miles  de  dolares),  una  medida  del  tamano 

A  priori,  se  espera  que  ,62  y  fi 4  sean  negativos  (ipor  que?)  y  que  ^3  y  /3S  positivos. 

Despues  de  corregir  por  heteroscedasticidad  y  por  autocorrelacion  de  primer  orden,  Cappe¬ 
lleri  obtuvo  los  siguientes  resultados:11 

Yj=  0.6860  -  0.0179Xf,.  +  0.0486X3/ +  0.05 72 X4,  4-  0.378(f-7)X5 

(0.1775)  (0.0024)  (0.0486)  (0.0178)  (0.039)(£-8)  (15.3.1) 

R2  =  0.6933 

Nota:  0.378  ( E-7 )  significa  0.0000000378,  etcetera. 

Todos  los  coeficientes,  a  excepcion  del  asociado  a  X4,  tienen  los  signos  correctos.  Dejamos  a 
los  estudiantes  de  finanzas  que  deduzcan  la  razon  por  la  cual  el  coeficiente  de  la  variabilidad  de 
la  tasa  de  rentabilidad  tiene  signo  positivo,  pues  se  espera  que  cuanto  mayor  sea  la  variabilidad 
en  las  utilidades,  menos  probable  es  que  la  empresa  Moody  de  una  clasificacion  Aa,  si  las  demas 
condiciones  se  mantienen  iguales. 

La  interpretacion  de  la  regresion  es  clara.  Por  ejemplo,  el  0.0486  asociado  a  X3  significa  que,  si 
las  demas  condiciones  se  mantienen  iguales,  un  incremento  de  un  punto  porcentual  en  la  tasa  de 
rendimiento  generara,  en  promedio,  alrededor  de  un  0.05  de  incremento  en  la  probabilidad 
de  que  un  bono  obtenga  la  clasificacion  Aa.  En  forma  similar,  cuanto  mas  alta  sea  la  tasa  de 
endeudamiento  elevada  al  cuadrado,  menor  sera  la  probabilidad  (en  0.02)  de  que  un  bono 
reciba  la  clasificacion  Aa  por  unidad  de  incremento  en  esta  tasa. 


10  Joseph  Cappelleri,  "Predicting  a  Bond  Rating",  documento  universitario  sin  publicar,  C.U.N.Y.  El  modelo 
empleado  es  una  modification  del  que  aparece  en  Thomas  F.  Pogue  y  Robert  M.  Soldofsky,  "What  Is  in  a 
Bond  Rating?",  lournal  of  Financial  and  Quantitative  Analysis,  junio  de  1969,  pp.  201-228. 

11  Algunas  probabilidades  estimadas  antes  de  corregir  por  heteroscedasticidad  fueron  negativas  y  otras  fue- 
ron  superiores  a  1 ;  para  facilitar  el  calculo  de  las  ponderaciones  w-,  en  estos  casos,  se  supuso  que  fueron  0.01 
y  0.99,  respectivamente. 
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EJEMPLO  15.4 

iQuien  tiene  una 
tarjeta  de  debito? 


Como  ocurre  con  las  tarjetas  de  credito,  en  la  actualidad  es  muy  comun  que  los  consumidores 
usen  las  de  debito.  Los  comerciantes  las  prefieren  porque  cuando  se  usa  una  tarjeta  de  debito, 
la  cantidad  que  uno  compra  se  deduce  automaticamente  de  la  cuenta  de  cheques  u  otra  cuenta 
designada  por  el  usuario.  Para  averiguar  que  factores  determinan  el  uso  de  la  tarjeta  de  debito, 
obtuvimos  datos  sobre  60  clientes  y  consideramos  el  siguiente  modelo:12 

Yi  =  Pt  +  P2X2  i  +  P3X3  i  +  P4X4  i  +  Ui 

donde  Y  =  1  para  quien  posee  una  tarjeta  de  debito,  0  en  otro  caso;  X2  =  saldo  de  la  cuenta 
en  dolares;  X3  =  numero  de  transacciones  en  cajeros  automaticos;  X4  =  1  si  la  cuenta  devenga 
intereses,  0  en  caso  contrario. 

En  vista  de  que  el  modelo  lineal  de  probabilidad  (MLP)  muestra  heteroscedasticidad,  presen- 
tamos  los  resultados  habituales  de  MCO  y  los  resultados  de  MCO  corregidos  por  heteroscedas¬ 
ticidad  en  forma  tabular. 


Variable 

Coeficiente 

Coeficiente* 

Constante 

0.3631 

0.3631 

(0.1  796)** 

(0.1604)** 

Saldo 

0.00028** 

0.00028** 

(0.00015) 

(0.00014) 

Cajero  automatico 

-0.0269 

-0.0269 

(0.208) 

(0.0202) 

Interes 

-0.3019** 

-0.3019** 

(0.1448) 

(0.1353) 

R2 

0.1056 

(0.1056) 

Nota:  *  denota  errores  estandar  corregidos  por  heteroscedasticidad. 
**  significativo  en  el  nivel  de  5%  aproximadamente. 


Como  indican  estos  resultados,  los  usuarios  con  saldos  mas  altos  en  sus  cuentas  tienden  a  tener 
tarjeta  de  debito.  Cuanto  mas  alta  es  la  tasa  de  interes  que  se  paga  sobre  el  saldo  de  la  cuenta, 
menor  es  la  tendencia  a  tener  tarjeta  de  debito.  Aunque  la  variable  cajero  automatico  no  es  sig- 
nificativa,  observe  que  tiene  signo  negativo.  Esto  se  debe  quiza  a  las  comisiones  por  transaccion 
en  cajero  automatico. 

No  existe  una  gran  diferencia  entre  los  errores  estandar  estimados  con  y  sin  correccion  por 
heteroscedasticidad.  Para  ahorrar  espacio,  no  presentamos  los  valores  ajustados  (es  decir,  las 
probabilidades  estimadas),  pero  todas  se  situan  entre  los  Ifmites  de  0  y  1 .  Sin  embargo,  no  hay 
garantfa  de  que  asf  ocurra  en  todos  los  casos. 


15.4  Alternativas  al  MLP 


Como  vimos,  el  MLP  tiene  infinidad  de  problemas,  como  1)  la  no  normalidad  de  los  it„  2)  la 
heteroscedasticidad  de  m„  3)  la  posibilidad  de  que  Y,  se  encuentre  fuera  del  rango  0-1  y  4)  los 
valores  generalmente  bajos  de  R1.  Pero  estos  problemas  son  superables.  Por  ejemplo,  se  pueden 
utilizar  MCP  para  resolver  el  problema  de  heteroscedasticidad  o  incrementar  el  tamano  de  la 
muestra  y  reducir  as!  el  problema  de  la  no  normalidad.  Mediante  tecnicas  de  mlnimos  cuadrados 
restringidos  o  de  programacion  matematica,  es  posible  hacer  que  las  probabilidades  estimadas  se 
encuentren  dentro  del  intervalo  0- 1 . 

Pero  incluso  asl,  el  problema  fundamental  con  el  MLP  es  que  logicamente  no  es  un  modelo 
muy  atractivo  porque  supone  que  P,  =  E{Y  —  1 1 X )  aumenta  linealmente  con  X,  es  decir,  el  efecto 
marginal  o  incremental  deXpermanece  constante  todo  el  tiempo.  Asl,  en  el  ejemplo  de  propiedad 
de  vivienda  encontramos  que,  a  medida  que  X  aumenta  en  una  unidad  ($  1  000  ),  la  probabili- 


12  Los  datos  empleados  en  el  analisis  se  obtuvieron  de  Douglas  A.  Lind,  William  C.  Marchal  y  Robert  D. 
Mason,  Statistical  Techniques  in  Business  and  Economics,  1  la.  ed.,  McGraw-Hill,  2002,  apendice  N,  pp.  775- 
776.  No  utilizamos  todas  las  variables  que  emplearon  los  autores. 
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FIGURA  15.2 

Funcion  de  distribution 
acumulativa  (FDA). 


P 


dad  de  ser  propietario  de  una  casa  aumenta  en  la  misma  cantidad  constante  de  0.10.  Esto  es  as! 
independientemente  de  que  el  nivel  del  ingreso  sea  de  $8  000,  $10  000,  $18  000  o  $22  000.  Esto 
no  sucede  jamas  en  la  realidad.  En  verdad  se  esperarla  que  P,  estuviera  relacionado  en  forma  no 
lineal  con  Xp  con  ingresos  muy  bajos,  una  familia  no  sera  propietaria  de  una  casa,  pero  en  un 
nivel  de  ingresos  lo  bastante  altos,  por  ejemplo,  X*,  es  muy  probable  que  si  tenga  casa  propia. 
Cualquier  incremento  en  el  ingreso  mas  alia  de  X*  tendra  un  efecto  pequeno  sobre  la  probabili- 
dad  de  tener  casa  propia.  Asi,  en  ambos  extremos  de  la  distribution  de  ingresos,  la  probabilidad 
de  ser  dueno  de  una  casa  practicamente  no  se  vera  afectada  por  un  pequeno  incremento  en  X. 

Por  consiguiente,  lo  que  necesitamos  es  un  modelo  (probabilistico)  que  tenga  estas  dos  carac- 
teristicas:  1)  a  medida  que  aumente  Xh  P,  —  E(Y  —  \\X)  tambien  aumente  pero  nunca  se  saiga 
del  intervalo  0-1,  y  2)  la  relation  entre  P,  y  X,  sea  no  lineal,  es  decir,  “uno  se  acerca  a  cero  con 
tasas  cada  vez  mas  lentas  a  medida  que  se  reduce  Xb  y  se  acerca  a  uno  con  tasas  cada  vez  mas 
lentas  a  medida  que  X,  se  hace  muy  grande”.13 

En  terminos  geometricos,  el  modelo  que  deseamos  tendria  la  forma  de  la  figura  15.2.  Observe 
en  este  modelo  que  la  probabilidad  se  encuentra  entre  0  y  1,  y  que  este  varia  en  forma  no  lineal 
con  X. 

El  lector  se  dara  cuenta  de  que  la  curva  en  forma  de  S,  o  sigmoidea,  en  la  figura  se  parece 
mucho  a  la  funcion  de  distribution  acumulativa  de  una  variable  aleatoria  (FDA).14  Por  consi¬ 
guiente,  se  puede  utilizar  facilmente  la  FDA  en  regresiones  de  modelos  en  los  cuales  la  variable 
de  respuesta  es  dicotoma,  para  adquirir  valores  0-1.  La  pregunta  practica  ahora  es,  (',cual  FDA?: 
aunque  todas  las  FDA  tienen  forma  de  S,  para  cada  variable  aleatoria  hay  una  FDA  unica.  Por 
razones  tanto  historicas  como  practicas,  las  FDA  que  suelen  seleccionarse  para  representar  los 
modelos  de  respuesta  0-1  son  1)  la  logistica  y  2)  la  normal;  la  primera  da  lugar  al  modelo  logit, 
y  la  ultima,  al  modelo  probit  (o  normit). 

Aunque  el  analisis  detallado  de  los  modelos  logit  y  probit  trasciende  el  alcance  de  esta  obra, 
indicaremos  de  manera  un  poco  informal  el  modo  de  estimar  e  interpretar  tales  modelos. 


15.5  El  modelo  logit 


Continuamos  con  el  ejemplo  de  propiedad  de  vivienda  para  explicar  las  ideas  basicas  del  modelo 
logit.  Recuerde  que  en  la  explication  de  la  propiedad  de  vivienda  en  relation  con  el  ingreso,  el 
MLP  fue 


Pi  =  fa  +  fi2Xt 


(15.5.1) 


13  John  Aldrich  y  Forrest  Nelson,  op.  cit.,  p.  26. 

14  Como  analizamos  en  el  apendice  A,  la  FDA  de  una  variable  aleatoria  X  es  sencillamente  la  probabilidad 
de  que  adopte  un  valor  menor  o  igual  a  xo,  donde  xo  es  algun  valor  numerico  especificado  de  X.  En  resu- 
men,  F(X),  la  FDA  de  X,  es  F(X  =  xq)  =  P(X  <  xq). 
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donde X es  el  ingreso  y  Pj  —  E{Yi—  1 1  Xt)  significa  que  la  familia  es  propietaria  de  una  casa.  Pero 
considere  ahora  la  siguiente  representation  de  la  propiedad  de  vivienda: 


Pi  = 


1 

1  +e-(Pi+fcX,  i 


Para  facilidad  de  la  exposition,  escribimos  (15.5.2)  como 


1  +  e~Zi  1  +  ez 


(15.5.2) 


(15.5.5) 


donde  Z,  =  /fi  +  p2Xj. 

La  ecuacion  (15.5.3)  representa  lo  que  se  conoce  como  funcion  de  distribution  logistica 
(acumulativa).15 

Es  facil  verificar  que  a  medida  que  Z,  se  encuentra  dentro  de  un  rango  de  — oo  a  +oo,  P,  se  en- 
cuentra  dentro  de  un  rango  de  0  a  1 ,  y  que  P,  no  esta  linealmente  relacionado  con  Z,  (es  decir,  con 
Xj),  lo  que  satisface  los  dos  requisites  considerados  antes.16  Pero  parece  que  al  satisfacer  estos 
requisites  creamos  un  problema  de  estimacion,  porque  /*,  es  no  lineal  no  solo  en  X  sino  tambien 
en  las  fi,  como  se  ve  a  partir  de  (15.5.2).  Esto  significa  que  no  podemos  estimar  los  parametros 
con  el  procedimiento  habitual  de  MCO.17  Pero  este  problema  es  mas  aparente  que  real  porque 
(15.5.2)  puede  linealizarse,  lo  cual  se  demuestra  de  la  siguiente  manera. 

Si  Pi,  la  probabilidad  de  tener  casa  propia,  esta  dada  por  (15.5.3),  entonces  (1  —  P,),  la  proba- 
bilidad  de  no  tener  casa  propia,  es 

i  ~P‘  =  t^tx  05.5.4) 

1  +  ez< 


Por  consiguiente,  podemos  escribir 


Pi 

1  ~Pi 


1  +  ez‘ 

1  +  e~Zi 


(15.5.5) 


Ahora  P,  /(l  —  P,)  es  sencillamente  la  razon  de  las  probabilidades  en  favor  de  tener  una  casa 
propia:  la  razon  de  la  probabilidad  de  que  una  familia  posea  una  casa  propia  respecto  de  la  pro¬ 
babilidad  de  que  no  la  posea.  Asi,  si  P,  —  0.8,  significa  que  las  posibilidades  son  4  a  1  en  favor  de 
que  la  familia  posea  una  casa  propia. 

Ahora,  si  tomamos  el  logaritmo  natural  de  (15.5.5),  obtenemos  un  resultado  muy  interesante, 
a  saber. 


Li  =  In  (  Pi 

)  =  z, 

\l-Pi 

J  (15.5.6) 

=  Pi  +  PiXi 

15  El  modelo  logfstico  es  muy  comun  en  analisis  de  fenomenos  de  crecimiento,  como  poblacion,  PNB,  oferta 
monetaria,  etc.  Para  conocer  los  detalles  teoricos  y  practicos  de  los  modelos  logit  y  probit,  vease  J.S.  Kramer, 
The  Logit  Model  for  Economists,  Edward  Arnold,  Londres,  1 991 ;  y  G.S.  Maddala,  op.  cit. 

16  Observe  que  a  medida  que  Z;  ->  +oo,  e~Zi  tiende  a  cero,  y  a  medida  que  Z,  ->■  — oo,  e~z'  aumenta  indefi- 
nidamente.  Recuerde  que  e  =  2.71 828. 

1 7  Desde  luego,  se  pueden  utilizar  las  tecnicas  de  estimacion  no  lineales  analizadas  en  el  capftulo  1 4.  Vease 
tambien  la  seccion  15.8. 
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es  decir,  L,  el  logaritmo  de  la  razon  de  las  probabilidades,  no  es  solo  lineal  en  X ,  sino  tambien 
(desde  el  punto  de  vista  de  estimacion)  lineal  en  los  parametros.18  L  se  llama  logit,  y  de  aqui  el 
nombre  modelo  logit  para  modelos  como  (15.5.6). 

Observe  estas  caracteristicas  del  modelo  logit. 

1.  A  medida  que  P  va  de  0  a  1  (es  decir,  a  medida  que  Z  varia  de  — oo  a  +oo,  el  logit  L  va  de 
— oo  a  +oo.  Es  decir,  aunque  las  probabilidades  (por  necesidad)  se  encuentran  entre  0  y  1,  los 
logit  no  estan  acotados  en  esa  forma. 

2.  Aunque  L  es  lineal  en  X ,  las  probabilidades  en  si  mismas  no  lo  son.  Esta  propiedad  con- 
trasta  con  el  MLP  (15.5.1),  en  donde  las  probabilidades  aumentan  linealmente  con  A. 19 

3.  Aunque  en  el  modelo  anterior  incluimos  solo  una  variable  X. ,  o  regresora,  podemos  anadir 
tantas  regresoras  como  indique  la  teoria  subyacente. 

4.  Si  L ,  el  logit,  es  positivo,  significa  que  cuando  se  incrementa  el  valor  de  la(s)  regresora(s), 
aumentan  las  posibilidades  de  que  la  regresada  sea  igual  a  1  (lo  cual  indica  que  sucedera  algo  de 
interes).  Si  L  es  negativo,  las  posibilidades  de  que  la  regresada  iguale  a  1  disminuyen  conforme 
se  incrementa  el  valor  de  X.  Para  expresarlo  de  otra  forma,  el  logit  se  convierte  en  negativo  y  se 
incrementa  en  gran  medida  conforme  la  razon  de  las  probabilidades  disminuye  de  1  a  0;  ademas, 
se  incrementa  en  gran  medida  y  se  vuelve  positivo  conforme  la  razon  de  las  probabilidades  au- 
menta  de  1  a  infinito.20 

5.  De  manera  mas  formal,  la  interpretacion  del  modelo  dado  en  (15.5.6)  es  la  siguiente:  fJ>2, 
la  pendiente,  mide  el  cambio  en  L  ocasionado  por  un  cambio  unitario  en  X,  es  decir,  dice  como 
cambia  el  logaritmo  de  las  posibilidades  en  favor  de  tener  una  casa  propia  a  medida  que  el  ingreso 
cambia  en  una  unidad,  por  ejemplo,  $1  000.  El  intercepto  /fi  es  el  valor  del  logaritmo  de  las  po¬ 
sibilidades  en  favor  de  tener  una  casa  propia  si  el  ingreso  es  cero.  A1  igual  que  la  mayoria  de  las 
interpretaciones  de  los  interceptos,  esta  interpretacion  puede  no  tener  significado  fisico  alguno. 

6.  Con  un  nivel  determinado  de  ingreso,  por  ejemplo,  X* ,  si  de  verdad  deseamos  estimar  la 
probabilidad  misma  de  tener  una  casa  propia,  y  no  las  posibilidades  en  favor  de  tener  una  casa 
propia,  podemos  hacerlo  directamente  a  partir  de  (15.5.3)  una  vez  que  dispongamos  de  las  es- 
timaciones  de  fi\  y  /L.  Pero  esto  plantea  la  pregunta  mas  importante:  ^como  estimar  fi\  y  /32  en 
primer  lugar?  La  respuesta  esta  en  la  siguiente  seccion. 

7.  Mientras  que  el  MLP  supone  que  P,  esta  linealmente  relacionado  con  X„  el  modelo  logit 
supone  que  el  logaritmo  de  la  razon  de  probabilidades  esta  relacionado  linealmente  con  Xt. 


15.6  Estimacion  del  modelo  logit 


Para  fines  de  estimacion,  escribimos  (15.5.6)  de  la  siguiente  manera: 


Li 


=  P\  +  PlXi  +  M, 


En  breve  analizaremos  las  propiedades  del  termino  de  error  estocastico 


(15.6.1) 


18  Recuerde  que  el  supuesto  de  linealidad  de  MCO  no  requiere  que  la  variable  X  sea  necesariamente  lineal. 
Asf,  podemos  tener  X2,  X3,  etc.,  como  regresoras  en  el  modelo.  Para  nuestro  proposito,  lo  crucial  es  la  linea¬ 
lidad  en  los  parametros. 

19  Mediante  calculo,  se  demuestra  que  dP/dX  =  ftP(1  -  P),  lo  cual  muestra  que  la  tasa  de  cambio  de  la  pro¬ 
babilidad  respecto  de  X  contiene  no  solo  a  ft,  sino  tambien  al  nivel  de  probabilidad  a  partir  del  cual  se  mide 
el  cambio  (vease  mas  al  respecto  en  la  seccion  15.7).  A  proposito,  observe  que  el  efecto  de  un  cambio  uni¬ 
tario  en  X,  sobre  P  es  maximo  cuando  P  =  0.5  y  rrnnimo  cuando  P  esta  cercano  a  0  o  a  1 . 

20  Esta  observacion  la  hizo  David  Garson. 
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Para  estimar  (15.6.1),  ademas  de  X„  necesitamos  los  valores  de  la  regresada,  o  del  logit,  L,. 
Esto  depende  del  tipo  de  datos  que  se  analicen.  Estos  se  clasifican  en  dos  categorias:  1)  datos  de 
nivel  individual,  o  micro,  y  2)  datos  agrupados  o  duplicados. 


Datos  de  nivel  individual 

Si  disponemos  de  datos  sobre  familias  individuales,  como  en  la  tabla  15.1,  no  es  factible  la  esti¬ 
mation  de  (15.6.1)  por  MCO,  lo  cual  es  facil  de  ver.  En  terminos  de  los  datos  proporcionados  en 
la  tabla  15.1,  P,  =  1  si  una  familia  es  duena  de  una  casa  y  P,  =  0  si  no  tiene  casa  propia.  Pero  si 
colocamos  estos  valores  directamente  en  el  logit  Lx,  obtenemos 


Lx 

Li 


si  una  familia  es  duena  de  una  casa 


si  una  familia  no  es  duena  de  una  casa 


Obvio,  estas  expresiones  no  tienen  sentido.  Por  consiguiente,  si  la  informacion  disponible  esta  en 
un  nivel  micro  o  individual,  no  podemos  estimar  (15.6.1)  mediante  la  rutina  de  MCO  estandar. 
En  esta  situacion  quiza  debamos  recurrir  al  metodo  de  maxima  verosimilitud  (MV)  para  estimar 
los  parametros.  Aunque  analizamos  los  rudimentos  de  este  metodo  en  el  apendice  del  capitulo 
4,  su  aplicacion,  en  el  presente  contexto,  se  presenta  en  el  apendice  15 A,  seccion  15A.1,  como 
consideracion  a  los  lectores  que  deseen  aprender  mas  sobre  el.21  Programas  como  MICROFIT, 
EViews,  LIMDEP,  SHAZAM,  PC-GIVE,  STATA  y  MINITAB  tienen  rutinas  internas  para  esti¬ 
mar  el  modelo  logit  en  el  nivel  individual.  Ilustraremos  el  metodo  de  VM  mas  adelante  en  este 
capitulo. 


Datos  agrupados  o  duplicados 

Ahora  considere  los  datos  de  la  tabla  15.4.  Esta  tabla  proporciona  datos  agrupados  o  duplicados 
(observaciones  repetidas)  sobre  diversas  familias,  de  acuerdo  con  el  nivel  de  ingreso  y  el  numero 
de  familias  que  tienen  casa  propia  en  cada  nivel  de  ingreso.  Correspondiente  a  cada  nivel  de  in¬ 
greso  Xi,  hay  Nj  familias,  de  las  cuales  w,  tienen  casa  propia  («,  <  A)).  Por  consiguiente,  si  ahora 
calculamos 


-  W; 

Pi  =  — 

Ni 


(15.6.2) 


TABLA  15.4 
Datos  hipoteticos  sobre 
X,  (ingreso),  A,-  (numero 
de  familias  con  ingreso 
Xi)  y  ni  (numero  de  fa¬ 
milias  que  tienen  casa 
propia) 


X 

(miles  de  dolares) 

Ni 

n, 

6 

40 

8 

8 

50 

12 

10 

60 

18 

13 

80 

28 

15 

100 

45 

20 

70 

36 

25 

65 

39 

30 

50 

33 

35 

40 

30 

40 

25 

20 

21  Para  un  analisis  de  maxima  verosimilitud  comparativamente  sencillo  en  el  contexto  del  modelo  logit, 
vease  John  Aldrich  y  Forrest  Nelson,  op.  cit.,  pp.  49-54.  Vease  tambien  Alfred  Demaris,  Logit  Modeling:  Practi¬ 
cal  Applications,  Sage,  Newbury  Park,  California,  1992. 
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es  decir ,frecuencia  relativa,  podemos  utilizarla  como  una  estimacion  de  la  verdadera  P,  corres- 
pondiente  a  cada  X,.  Si  X,  es  relativamente  grande,  P,  sera  una  estimacion  razonablemente  buena 
de  Pj.22  Con  la  P,  estimada,  podemos  obtener  el  logit  estimado  como 


Li 


=  h  +  foXi 


(15.6.3) 


lo  cual  sera  una  estimacion  relativamente  buena  del  verdadero  logit  Z,-,  si  el  niimero  de  observa- 
ciones  N,  en  cada  nivel  X,  es  razonablemente  grande. 

En  resumen,  con  la  informacion  agrupada  o  replicada  (observaciones  repetidas),  como  la  de 
la  tabla  15.4,  podemos  obtener  informacion  sobre  la  variable  dependiente,  los  logit,  para  estimar 
el  modelo  (15.6.1).  ^Podemos  entonces  aplicar  MCO  a  (15.6.3)  y  estimar  los  parametros  en  la 
forma  usual?  La  respuesta  es:  aun  no,  pues  hasta  el  momento  no  hemos  dicho  nada  sobre  las  pro- 
piedades  del  termino  de  perturbacion  estocastico.  Puede  demostrarse  que  si  X,  es  relativamente 
grande,  y  si  cada  observation  en  una  clase  de  ingreso  dado  X,  esta  distribuida  en  forma  indepen- 
diente  como  una  variable  binomial,  entonces 


u, 


N 


1 

°’  NtPi{\  -  P,)_ 


(15.6.4) 


es  decir,  m,  sigue  una  distribucion  normal  con  media  cero  y  varianza  igual  a  l/[NjPj(l  —  Pi)]22 
Por  consiguiente,  como  en  el  caso  del  MLP,  el  termino  de  perturbacion  en  el  modelo  logit 
es  heteroscedastico.  Asi,  en  lugar  de  MCO,  debemos  utilizar  minimos  cuadrados  ponderados 
(MCP).  Para  fines  empiricos;  sin  embargo,  reemplazaremos  la  P,  desconocida  por  P,  y  utilizare- 
mos 


NiM  1  -  Pi) 


(15.6.5) 


como  estimador  de  a2. 

Ahora  describiremos  los  diversos  pasos  en  la  estimacion  de  la  regresion  logit  (15.6.1): 


1 .  Para  cada  nivel  de  ingreso  X,  calcule  la  probabilidad  estimada  de  tener  una  casa  propia  como 

Pi  =  ni/Ni. 

2.  Por  cada  A),  obtenga  el  logit  mediante24 


Li  =\n[Pi/(l  -  P)] 

3.  Para  resolver  el  problema  de  heteroscedasticidad,  transforme  (15.6.1)  de  la  siguiente  ma- 

25 

nera: 


JwiLi  =  fii^/Wi  +  Pi^/wiXi  + 


(15.6.6) 


22  De  la  estadfstica  elemental  recuerde  que  la  probabilidad  de  un  evento  es  el  Ifmite  de  la  frecuencia  relativa 
a  medida  que  el  tamano  de  la  muestra  se  hace  infinitamente  grande. 

23  Como  se  demuestra  en  la  teorfa  de  probabilidad  elemental,  Pj,  la  proporcion  de  exitos  (en  este  caso,  la 
propiedad  de  una  casa),  sigue  la  distribucion  binomial  con  media  igual  a  la  verdadera  P,y  varianza  igual  a 
P,(  1  -  P,)/A/,;  y  a  medida  que  N ,  aumenta  indefinidamente,  la  distribucion  binomial  se  aproxima  a  la  distri¬ 
bucion  normal.  Las  propiedades  distributivas  de  u,  dadas  en  (15.6.4)  se  desprenden  de  esta  teorfa  basica. 
Hay  mayores  detalles  en  Henry  Theil,  "On  the  Relationships  Involving  Qualitative  Variables",  American  jour¬ 
nal  of  Sociology,  vol.  76,  julio  de  1970,  pp.  103-154. 

24 Como  Pj  =  rij/Nj,  L,  se  expresa  alternativamente  como  L;  =  In  n,/(N/  -  n,).  A  proposito,  debe  resaltarse  que 
para  evitar  que  P,  tome  el  valor  de  0  o  de  1,  en  la  practica  L,  se  mide  como  Lj  =  In  (n;  +  \)/(Nj  -  n,-  +  |)  = 
In  (P,  +  1  /2N,)/(1  —  Pj  +  1  /2 Nj).  Se  recomienda,  como  regia  practica,  que  N,  sea  por  lo  menos  5  para  cada 
valor  de  X,.  Hay  mayores  detalles  en  D.R.  Cox,  Analysis  of  Binary  Data,  Methuen,  Londres,  1 970,  p.  33. 

25  Si  estimamos  (1 5.6.1)  sin  tener  en  cuenta  la  heteroscedasticidad,  los  estimadores,  aunque  sean  insesga- 
dos,  no  seran  eficientes,  como  sabemos  por  el  capftulo  1 1 . 
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que  escribimos  como 


L*  =  PiV^i  +  P2X*  +  vt  (15.6.7) 

donde  las  ponderaciones  w,-  —  Nj Pj{  \  —  Pj)\  L*  —  transformada  o  ponderada  Lt;  X*  —  X, 
transformada  o  ponderada,  y  v,-  =  termino  de  error  transformado.  Es  facil  verificar  que  el  ter- 
mino  de  error  transformado  v,-  es  homoscedastico,  sin  olvidar  que  la  varianza  de  error  original 
es  a2  =  1/[7V,P,(1  —  P,j]. 

4.  Estime  (15.6.6)  mediante  MCO;  recuerde  que  MCP  es  MCO  aplicado  sobre  los  datos  trans- 
formados.  Observe  que  en  (15.6.6)  no  hay  termino  de  intercepto  introducido  explicitamente 
(<',por  que?).  Por  consiguiente,  se  tendra  que  estimar  (15.6.6)  mediante  el  procedimiento  de 
regresion  a  traves  del  origen. 

5.  Establezca  intervalos  de  confianza  y/o  pruebas  de  hipotesis  dentro  del  marco  usual  de  MCO, 
pero  tenga  en  mente  que  todas  las  conclusiones  serein  validas  en  estricto  sentido  si  la  muestra 
es  razonablemente  grande  (^por  que?).  Por  consiguiente,  en  muestras  pequenas,  los  resultados 
estimados  deben  interpretarse  con  cautela. 


15.7  Modelo  logit  agrupado  (glogit):  ejemplo  numerico 


Para  ilustrar  la  teoria  que  acabamos  de  analizar,  utilizaremos  los  datos  de  la  tabla  15.4.  Como 
estan  agrupados,  el  modelo  logit  que  se  basa  en  tales  datos  se  llamara  modelo  logit  agrupado,  o 
glogit,  para  abreviar.  Los  datos  necesarios  y  otros  calculos  pertinentes  necesarios  para  instrumen- 
tar  el  modelo  glogit  se  dan  en  la  tabla  15.5.  Los  resultados  de  la  regresion  con  minimos  cuadrados 
ponderados  (15.6.7)  que  se  basa  en  los  datos  de  la  tabla  15.5  son  los  siguientes:  observe  que  no 
hay  intercepto  en  la  ecuacion  (15.6.7);  por  consiguiente,  en  este  caso  resulta  apropiado  el  proce¬ 
dimiento  de  regresion  a  traves  del  origen. 

L*  =  -1.594740^+  0.07862X* 

ee  =  (0.11046)  (0.00539)  (15.7.1) 

f  =  (—14.43619)  (14.56675)  R2  =  0.9642 

R2  es  el  coeficiente  de  correlacion  al  cuadrado  entre  la  L*  verdadera  y  la  estimada.  L*  y  X*  son  la 
Lj  y  la  X,  ponderadas,  como  se  muestra  en  (15.6.6).  Aunque  presentamos  los  calculos  del  modelo 
logit  agrupado  en  la  tabla  15.5  por  razones  pedagogicas,  esto  se  efectua  facilmente  si  se  pulsa  el 
comando  glogit  (logit  agrupado)  en  STATA. 


Interpretacion  del  modelo  logit  estimado 

^Como  interpretamos  (15.7.1)?  Hay  diversas  formas,  algunas  intuitivas  y  otras  no,  a  saber: 
Interpretacion  Logit 

Como  lo  muestra  (15.7.1),  el  coeficiente  de  pendiente  estimado  indica  que  para  un  incremento 
unitario  ($1  000)  en  el  ingreso  ponderado,  el  logaritmo  ponderado  de  las  posibilidades  en  favor 
de  tener  casa  propia  aumenta  en  alrededor  de  0.08.  Esta  interpretacion  mecanica  no  resulta  muy 
atractiva. 

Interpretacion  de  las  probabilidades 

Recuerde  que  Li  ~  In  [P,-/(  1  —  /?)].  Por  consiguiente,  al  tomar  el  antilogaritmo  del  logit  esti¬ 
mado,  se  tiene  77/(1  —  Pi),  es  decir,  la  razon  de  las  probabilidades.  En  consecuencia,  al  tomar  el 
antilog  de  (15.7.1),  obtenemos: 
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ri  _  -1.59474^+0.07862^* 

1  -Pi  '  (15.7.2) 

_  e- 1.594747*7  _  e0.07862^* 

Mediante  una  calculadora  se  verifica  con  facilidad  que  e0  07862  —  1.08  1  7.  Lo  cual  significa  que, 
para  un  incremento  unitario  en  el  ingreso  ponderado,  las  posibilidades  (ponderadas)  en  favor  de 
ser  propietario  de  una  casa  aumentan  en  1.0817,  o  alrededor  de  8.17%.  En  general ,  si  se  toma 
el  antilogaritmo  del  coeficiente  de  la  j-esima  pendiente  (en  caso  de  que  haya  mas  de  una  regre- 
sada  en  el  modelo),  se  resta  uno  de  este  valor  y  se  multiplica  el  resultado  por  100,  se  obtendra 
el  cambio  porcentual  en  las  posibilidades  en  favor  por  una  unidad  de  incremento  en  la  j-esima 
regresora. 

Por  cierto,  si  desea  llevar  a  cabo  el  analisis  en  terminos  del  logit  no  ponderado,  solo  necesita 
dividir  el  L*  estimado  entre  ++.  La  tabla  15.6  proporciona  el  logit  ponderado  estimado  y  el  no 
ponderado  para  cada  observation,  asi  como  algunos  otros  datos  que  analizaremos  en  breve. 

Calculo  de  probabilidades 

Como  el  lenguaje  del  logit  y  de  la  razon  de  probabilidades  puede  ser  extrano  para  algunos,  siem- 
pre  podemos  calcular  la  probabilidad  de  que  una  familia  con  cierto  nivel  de  ingreso  posea  una 
casa  propia.  Suponga  que  deseamos  calcular  esta  probabilidad  para  X  —  20  (20  000).  A1  insertar 
este  valor  en  (15.7.1),  obtenemos  L*  —  —0.09311,  y  al  dividir  lo  anterior  entre  ++  =  4.1816 
(vease  la  tabla  15.5),  obtenemos  Z,  =  —0.02226.  En  consecuencia,  con  un  nivel  de  ingreso  de 
$20  000,  tenemos 


-0.02199  =  In 


Por  tanto, 


- -  =  e-0-02199  =  0.97825 

1  ~Pi 


Al  resolver  para 


£—0.02199 
1  _|_  e-  0.02 199 


TABLA  15.6 

Lstar,  Xstar,  Lstar 
estimada,  probabilidad 
y  cambio  en  la  probabi¬ 
lidad* 


Lstar 

Xstar 

ELstar 

Logit 

Probabilidad, 

P 

Cambio  en  la 
probabilidad7 

-3.50710 

15.1788 

-2.84096 

-1.12299 

0.24545 

0.01456 

-3.48070 

24.15920 

-2.91648 

-0.96575 

0.27572 

0.01570 

-3.48070 

35.49600 

-2.86988 

-0.80850 

0.30821 

0.01676 

-2.64070 

55.45930 

-2.44293 

-0.57263 

0.36063 

0.01813 

-0.99850 

74.62350 

-2.06652 

-0.41538 

0.39762 

0.01883 

0.16730 

83.65060 

-0.09311 

-0.02226 

0.49443 

0.01965 

1.60120 

98.74250 

1 .46472 

0.37984 

0.59166 

0.01899 

2.22118 

100.48800 

2.55896 

0.76396 

0.68221 

0.01704 

3.00860 

95.84050 

3.16794 

1.15677 

0.76074 

0.01431 

2.77260 

80.00000 

3.10038 

1.55019 

0.82494 

0.01135 

*  Lstar  y  Xstar  se  tomaron  de  la  tabla  15.5.  ELstar  es  Lstar  estimado.  Logit  es  el  logit  no  ponderado.  Probabilidad  es  la  probabilidad  esti¬ 
mada  de  ser  propietario  de  una  casa.  Cambio  en  la  probabilidad  es  el  cambio  por  unidad  de  cambio  en  el  ingreso. 
f  Calculado  con  base  en  1  -  P)  =  0.07862  P(  1  -  P). 
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FIGURA  15.3 

Cambio  en  la  probabilidad 
en  relacion  con  el  ingreso. 
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el  lector  puede  percatarse  de  que  la  probabilidad  estimada  es  0.4945.  Es  decir,  con  el  ingreso  de 
$20  000,  la  probabilidad  de  que  una  familia  sea  duena  de  una  casa  es  de  casi  49%.  La  tabla  15.6 
muestra  las  probabilidades  asi  calculadas  para  diversos  niveles  de  ingreso.  Como  se  ve  en  dicha 
tabla,  la  probabilidad  de  que  una  familia  tenga  casa  propia  se  incrementa,  pero  no  de  manera 
lineal  como  en  el  modelo  MLP. 

Calculo  de  la  tasa  de  cambio  de  la  probabilidad 

Como  se  corrobora  en  la  tabla  15.6,  la  probabilidad  de  tener  una  casa  propia  depende  del  nivel 
de  ingreso.  /.Como  podemos  calcular  la  tasa  de  cambio  de  las  probabilidades  conforme  varia  el 
ingreso?  Como  vimos  en  la  nota  19,  eso  depende  no  solo  de  la  pendiente  estimada  del  coeficiente 
j02,  sino  tambien  del  nivel  de  la  probabilidad  con  que  se  mida  el  cambio;  desde  luego,  esto  ultimo 
depende  del  ingreso  con  que  se  calcula  la  probabilidad. 

Para  ilustrar  lo  anterior,  suponga  que  deseamos  medir  el  cambio  en  la  probabilidad  de  ser 
propietario  de  una  casa  con  un  nivel  de  ingreso  de  $20  000.  Asi,  de  acuerdo  con  la  nota  19,  el 
cambio  en  la  probabilidad  correspondiente  al  incremento  en  una  unidad  del  ingreso  para  el  nivel 
20  (miles)  es:  4(1  -  P)P  =  0.07862(0.5056)(0.4944)  =  0.01965. 

Como  ejercicio,  el  lector  demostrara  que,  con  un  nivel  de  ingreso  de  $40  000,  el  cambio  en 
la  probabilidad  es  de  0.01 135.  La  tabla  15.6  suministra  el  cambio  en  la  probabilidad  de  ser  pro¬ 
pietario  de  una  casa  con  diversos  niveles  de  ingreso;  dichas  probabilidades  tambien  se  ilustran 
en  la  figura  15.3. 

Para  concluir  el  analisis  de  los  modelos  logit,  presentamos  a  continuacion  los  resultados  de 
la  regresion  basados  en  MCO,  o  regresion  no  ponderada,  para  el  ejemplo  de  propiedad  de  vi- 
vienda: 


Li  =  -1.6587 

+  0.0792 Xi 

ee  =  (0.0958) 

(0.0041) 

(15.7.3) 

t=  (-17.32) 

(19.11)  ,-2  =  0.9786 

Se  deja  al  lector  la  tarea  de  comparar  esta  regresion  con  la  de  minimos  cuadrados  ponderados 
presentada  en  la  ecuacion  (15.7.1). 


15.8  El  modelo  logit  para  datos  no  agrupados  o  individuates 


A  fin  de  establecer  el  contexto,  considere  los  datos  de  la  tabla  15.7.  Sea  7=  1,  si  la  calificacion 
final  de  un  estudiante  en  un  curso  intermedio  de  microeconomia  fue  A,  y  7  =  0  si  esa  califica¬ 
cion  final  fue  B  o  C.  Spector  y  Mazzeo  utilizaron  el  GPA  (promedio  de  puntos  de  calificacion), 


562  Parte  Tres  Temas  de  econometria 


TAB  LA  15.7  Datos  sobre  el  efecto  del  Sistema  de  Ensenanza  Personalizada  (PSI,  por  sus  sigas  en  ingles)  sobre  las 
calificaciones 


Califi- 

Califi- 

Califica- 

Califi- 

Califi- 

Califica- 

Observa- 

cacion 

cacion 

Califi- 

cion  con 

Observa- 

cacion 

cacion 

Califi- 

cion  con 

cion 

GPA 

TUCE 

PSI 

cacion 

letra 

cion 

GPA 

TUCE 

PSI 

cacion 

letra 

2.66 

20 

0 

0 

C 

17 

2.75 

25 

0 

0 

C 

2 

2.89 

22 

0 

0 

B 

18 

2.83 

19 

0 

0 

C 

3 

3.28 

24 

0 

0 

B 

19 

3.12 

23 

1 

0 

B 

4 

2.92 

12 

0 

0 

B 

20 

3.16 

25 

1 

1 

A 

5 

4.00 

21 

0 

1 

A 

21 

2.06 

22 

1 

0 

C 

6 

2.86 

17 

0 

0 

B 

22 

3.62 

28 

1 

1 

A 

7 

2.76 

17 

0 

0 

B 

23 

2.89 

14 

1 

0 

C 

8 

2.87 

21 

0 

0 

B 

24 

3.51 

26 

1 

0 

B 

9 

3.03 

25 

0 

0 

C 

25 

3.54 

24 

1 

1 

A 

10 

3.92 

29 

0 

1 

A 

26 

2.83 

27 

1 

1 

A 

11 

2.63 

20 

0 

0 

C 

27 

3.39 

17 

1 

1 

A 

12 

3.32 

23 

0 

0 

B 

28 

2.67 

24 

1 

0 

B 

13 

3.57 

23 

0 

0 

B 

29 

3.65 

21 

1 

1 

A 

14 

3.26 

25 

0 

1 

A 

30 

4.00 

23 

1 

1 

A 

15 

3.53 

26 

0 

0 

B 

31 

3.10 

21 

1 

0 

C 

16 

2.74 

19 

0 

0 

B 

32 

2.39 

19 

1 

1 

A 

Notas:  Calificacion  Y  =  1  si  la  calificacion  final  flie  A 

y=0si  la  calificacion  final  file  B  o  C 

TUCE  =  calificacion  en  un  examen  presentado  al  comienzo  del  curso  para  evaluar  los  conocimientos  previos  de  macroeconomia 
PSI  =  1  con  el  nuevo  metodo  de  ensenanza 
=  0  en  otro  caso 

GPA  =  promedio  de  puntos  de  calificacion  inicial 

Fuente:  L.  Spector  y  M.  Mazzero,  “Probit  Analysis  and  Economic  Education”,  Journal  of  Economic  Education,  vol.  11,  1980,  pp.  37-44. 


TUCE  y  PSI  (Sistema  de  Ensenanza  Personalizada)  de  Estados  Unidos  como  predictores  de  la 
calificacion.  El  modelo  logit  en  este  caso  se  expresa  como: 


ft 


=  ft  +  ftGPA,  +  ft  TUCE,  +  ftPSI,  +  Uj 


(15.8.1) 


Como  vimos  en  la  seccion  15.6,  no  podemos  poner  simplemente  ft  =  1  si  una  familia  es  pro- 
pietaria  de  una  casa  y  cero  si  no  lo  es.  En  esta  situacion,  no  resultan  utiles  los  MCO  ni  los  MCP. 
Tenemos  que  recurrir  a  procedimientos  de  calculo  no  lineales  con  el  metodo  de  maxima  verosi- 
militud.  Los  detalles  de  tal  metodo  se  proporcionan  en  el  apendice  15  A,  seccion  15A.1.  En  vista 
de  que  el  software  estadistico  mas  moderno  cuenta  con  rutinas  para  estimar  los  modelos  logit 
con  base  en  datos  no  agrupados,  presentaremos  los  resultados  del  modelo  (15.8. 1),  que  utiliza  los 
datos  de  la  tabla  15.7,  y  mostraremos  la  manera  de  interpretar  dichos  resultados,  mismos  que  se 
presentan  en  la  tabla  15.8  en  forma  tabular.  Obtuvimos  estos  resultados  con  EViews  6.  Antes  de 
interpretarlos  debemos  tener  en  cuenta  las  siguientes  observaciones  generales: 

1.  Como  empleamos  el  metodo  de  maxima  verosimilitud,  que  en  general  es  para  muestras 
grandes,  los  errores  estandar  estimados  son  asintoticos. 

2.  Como  resultado,  en  vez  del  estadistico  t  para  evaluar  la  importancia  estadistica  de  un  co- 
eficiente,  empleamos  el  estadistico  (normal  estandarizado)  Z,  por  lo  que  las  inferencias  se  basan 
en  la  tabla  normal.  Recuerde  que  si  el  tamano  de  la  muestra  es  razonablemente  grande,  la  distri- 
bucion  t  converge  a  la  distribucion  normal. 

3.  Como  ya  mencionamos,  la  medida  convencional  de  la  bondad  de  ajuste,  R 2,  no  es  particu- 
larmente  significativa  para  los  modelos  con  regresada  binaria.  Existen  diversas  medidas  similares 
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TAB  LA  15.8 

Resultados  de  la  re¬ 
gresion  de  la  ecuacion 
(15.8.1) 


Variable  dependiente :  Calificacion 

Metodo:  Logit  binario  MV 

Convergencia  lograda  despues  de  5  iteraciones 

Variable 

Coeficiente 

Error  estandar 

Estadistico  Z 

Probabilidad 

C 

-13 . 0213 

4 . 931 

-2 . 6405 

0 . 0082 

GPA 

2 . 8261 

1.2629 

2.2377 

0 . 0252 

TUCE 

0 .0951 

0 . 1415 

0 . 67223 

0 . 5014 

PSI 

2.3786 

1 . 0645 

2 .2345 

0 . 0255 

R2 

McFadden  =  0 . 

3740  Estadistico 

RV  (3  gl)  =  15 

.40419 

a  R 2,  llamadas  pseudo  R2.26  EViews  presenta  una  de  esas  medidas,  la  R2  McFadden,  denotada 
como  R2 mcf,  cuyo  valor  para  el  ejemplo  presente  es  de  0.3740. 27  A1  igual  que  R 2,  R2 mcf  tambien 
varla  entre  0  y  1 .  Otra  medida  de  ajuste  comparativamente  simple  es  la  cuenta  R2,  que  se  define 
como: 

,  numero  de  predicciones  correctas 

Cuenta  R2  = - - -  (15.8.2) 

numero  total  de  observaciones 

Como  la  regresada  en  el  modelo  logit  toma  el  valor  de  1  o  de  0,  si  la  probabilidad  pronosticada 
es  mayor  que  0.5,  se  clasifica  como  si  fuese  1,  pero  si  es  menor  que  dicho  valor,  se  considera  0. 
Asi,  se  cuenta  el  numero  de  predicciones  correctas  y  se  calcula  R2  como  la  dada  en  (15.8.2).  En 
breve  ilustraremos  esto. 

Debe  notarse  que,  sin  embargo,  en  los  modelos  con  regresada  binaria,  la  bondad  del  ajuste 
tiene  una  importancia  secundaria.  Lo  que  interesa  son  los  signos  esperados  de  los  coeficientes  de 
la  regresion  y  su  importancia  practica  y/o  estadistica. 

4.  A  fin  de  probar  la  hipotesis  nula  respecto  de  que  todos  los  coeficientes  de  pendiente  son 
simultaneamente  iguales  a  cero,  el  equivalente  de  la  prueba  F  en  el  modelo  de  regresion  lineal  es 
el  estadistico  de  la  razon  de  verosimilitud  (RV).  Con  la  hipotesis  nula,  el  estadistico  RV  sigue 
la  distribucion  x2  con  gl  igual  al  numero  de  variables  explicativas,  tres  para  el  presente  ejemplo. 
( Nota :  Excluya  el  termino  del  intercepto  para  el  calculo  de  los  gl.) 

Ahora  interpretemos  los  resultados  de  la  regresion  dados  en  (15.8.1).  En  esta  ecuacion,  cada 
coeficiente  de  pendiente  es  un  coeficiente  de  pendiente  parcial  y  mide  el  cambio  en  el  logit  esti- 
mado  correspondiente  a  una  unidad  de  cambio  del  valor  de  la  regresada  dada  (con  las  demas  re- 
gresoras  constantes).  Por  tanto,  el  coeficiente  del  GPA  igual  a  2.8261  significa  que,  mientras  las 
demas  variables  se  mantengan  constantes,  si  el  GPA  se  incrementa  en  una  unidad,  en  promedio 
el  logit  estimado  aumenta  casi  2.83  unidades,  lo  cual  indica  una  relacion  positiva  entre  ambos. 
Como  se  aprecia,  todas  las  demas  regresoras  tienen  un  efecto  positivo  en  el  logit,  a  pesar  de  que 
en  terminos  estadisticos  el  efecto  de  TUCE  no  es  importante.  No  obstante,  todas  las  regresoras 
en  conjunto  tienen  un  impacto  importante  en  la  calificacion  final,  pues  el  estadistico  RV  es  igual 
a  15.40,  cuyo  valor p  es  de  casi  0.0015,  el  cual  resulta  muy  pequeno. 

Como  dijimos  antes,  una  interpretation  mas  significativa  se  da  en  terminos  de  las  posibili- 
dades  en  favor,  las  cuales  se  obtienen  al  tomar  el  antilogaritmo  de  los  diversos  coeficientes  de 
pendiente.  En  consecuencia,  si  tomamos  el  antilogaritmo  del  coeficiente  de  PSI,  igual  a  2.3786, 


26  Para  un  analisis  comprensible,  vease  J.  Scout  Long,  Regression  Models  for  Categorical  and  Limited  Dependent 
Variables,  Sage,  Newbury  Park,  California,  1997,  pp.  102-1 1  3. 

27Tecnicamente,  esto  se  define  como:  1  —  (FLVir/FLVr),  donde  FLVjr  es  la  funcion  logaritmo  de  verosimilitud 
irrestricta,  para  la  cual  se  incluyen  en  el  modelo  todas  las  regresoras,  y  FLVres  la  funcion  logaritmo  de  ve¬ 
rosimilitud  restringida  para  la  cual  solo  se  incluye  el  intercepto  en  el  modelo.  Conceptualmente,  FLVjr  es  el 
equivalente  de  la  SCR  y  FLVr  es  el  equivalente  de  la  SCT  del  modelo  de  regresion  lineal. 
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TAB  LA  15.9 

Valores  reales  y  ajusta- 
dos  con  base  en  la  regre- 
sion  de  la  tabla  15.8 


Observacion 

Real 

Ajustado 

Residuo 

Grafico  de  residuos 

1 

0 

0.02658 

-0.02658 

2 

0 

0.05950 

-0.05950 

I 

3 

0 

0.18726 

-0.18726 

/ 

4 

0 

0.02590 

-0.02590 

\ 

5 

1 

0.56989 

0.43011 

6 

0 

0.03486 

-0.03486 

T 

7 

0 

0.02650 

-0.02650 

I 

8 

0 

0.05156 

-0.05156 

/ 

9 

0 

0.11113 

-0.11113 

A. 

10 

1 

0.69351 

0.30649 

11 

0 

0.02447 

-0.02447 

/ 

12 

0 

0.19000 

-0.19000 

!*/_ 

13 

*14 

0 

1 

0.32224 

0.19321 

-0.32224 

0.80679 

kc" 

15 

0 

0.36099 

-0.36099 

jS 

16 

0 

0.03018 

-0.03018 

17 

18 

0 

0 

0.05363 

0.03859 

-0.05363 

-0.03859 

*19 

0 

0.58987 

-0.58987 

20 

1 

0.66079 

0.33921 

21 

22 

0 

1 

0.06138 

0.90485 

-0.06138 

0.09515 

23 

*24 

0 

0 

0.24177 

0.85209 

-0.24177 

-0.85209 

j 

25 

1 

0.83829 

0.16171 

_ ( 

*26 

27 

28 

29 

30 

1 

1 

0 

1 

1 

0.48113 

0.63542 

0.30722 

0.84170 

0.94534 

0.51887 

0.36458 

-0.30722 

0.15830 

0.05466 

•c 

~~~~ 

y 

t  — - 

*31 

0 

0.52912 

-0.52912 

*32 

1 

0.11103 

0.88897 

*  Predicciones  incorrectas. 


obtendremos  10.7897  e23786).  Esto  indica  que  los  estudiantes  expuestos  al  nuevo  metodo  de 

ensenanza  son  por  encima  de  10  veces  mas  propensos  a  obtener  una  A  que  quienes  no  estan  ex¬ 
puestos  al  nuevo  metodo,  en  tanto  no  cambien  los  demas  factores. 

Suponga  que  deseamos  calcular  la  probabilidad  real  de  que  un  estudiante  obtenga  una  cali- 
ficacion  de  A.  Considere  al  estudiante  10  de  la  tabla  15.7.  Al  introducir  los  datos  reales  de  este 
estudiante  en  el  modelo  logit  estimado,  dado  en  la  tabla  15.8,  puede  verificar  que  el  valor  logit 
estimado  para  dicho  estudiante  es  igual  a  0.8178.  Con  la  ecuacion  (15.5.2)  puede  verificar  con 
facilidad  que  la  probabilidad  estimada  es  0.69351.  Como  la  calificacion  final  real  del  estudiante 
fue  A  y  el  modelo  logit  asigna  una  probabilidad  de  1  a  un  estudiante  que  obtiene  una  A,  la  proba¬ 
bilidad  estimada  de  0.69351  no  es  exactamente  1,  pero  se  le  aproxima. 

Recuerde  la  cuenta  R2  ya  definida.  La  tabla  15.9  proporciona  los  valores  reales  y  pronostica- 
dos  de  la  regresada  para  el  ejemplo  ilustrativo.  En  esta  tabla  se  observa  que,  de  las  32  observa- 
ciones,  hubo  6  pronosticos  incorrectos  (estudiantes  14,  19,  24,  26,  31  y  32).  Por  tanto,  el  valor 
de  la  cuenta  R2  es  26/32  =  0.8125,  en  tanto  que  el  valor  R2  McFadden  es  0.3740.  Aunque  estos 
dos  valores  no  se  pueden  comparar  de  manera  directa,  dan  una  idea  de  los  ordenes  de  magnitud. 
Ademas,  no  se  debe  sobrevalorar  la  importancia  de  la  bondad  de  ajuste  en  modelos  para  los  que 
la  regresada  es  dicotoma. 
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EJEMPLO  15.5 

l  Quien  tiene  tarjeta 
de  debito?  Analisis 
logit 


Ya  estudiamos  los  resultados  del  modelo  lineal  de  probabilidad  (MLP)  aplicado  a  los  datos  de 
tarjetas  de  debito  bancarias,  por  lo  que  ahora  aplicaremos  el  modelo  logit.  Los  resultados  son 
como  sigue: 

Variable  dependiente:  DEBITO 

Metodo:  Logit  binario  MV  (ascenso  de  colina  cuadratico) 

Muestra:  1-60 

Observaciones  incluidas:  60 

Convergencia  lograda  despues  de  4  iteraciones 
Matriz  de  covarianza  calculada  con  segundas  derivadas 


Variable 


Coef iciente 


Error  estandar 


Estadistico  z 


Probabilidad 


c 

-0 . 574900 

0 . 785787 

-0 . 731624 

0.4644 

Saldo 

0 . 001248 

0 . 000697 

1 . 789897 

0 . 0735 

Cajero  automatico 

-0  . 120225 

0 . 093984 

-1.279205 

0.2008 

Interes 

-1.352086 

0.680988 

-1 . 985478 

0 . 0471 

R  cuadrada  McFadden 

0 . 080471 

Media  de  la  variable  dependiente 

0.433333 

Desviacion  estandar  de 

la  variable 

Error  estandar  de  la  regresion 

0.486274 

dependiente 

0.499717 

Suma  de  cuadrados  residual 

13 .24192 

Criterio  de  informacion 

de  Akaike 

1 .391675 

Log  verosimilitud 

-37 . 75024 

Criterio  de  Schwarz 

1.531298 

Log  verosimilitud  restr. 

-41 . 05391 

Criterio  de  Hannan-Quinn 

1.446289 

Promedio  log  verosimilitud 

-0 . 629171 

Estadistico  RV 

6 .607325 

Probabilidad  (estadistico  RV) 

0 . 085525 

Obs .  con  Dep  =  0 

34 

Total  de  obs . 

60 

Obs .  con  Dep  =  1 

26 

El  signo  positivo  de  Saldo  y  los  signos  negativos  de  Cajero  automatico  e  Interes  se  asemejan  a 
los  del  MLP,  aunque  no  podemos  establecer  una  comparacion  directa  entre  los  dos.  La  inter- 
pretacion  de  los  coeficientes  en  el  modelo  logit  difiere  de  la  del  MLP.  En  este  caso,  por  ejemplo, 
si  la  tasa  de  interes  aumenta  un  punto  porcentual,  el  logit  disminuye  alrededor  de  1.35,  si  las 
demas  variables  permanecen  constantes.  Si  tomamos  el  antilogaritmo  de  —1.352086,  obtene- 
mos  casi  0.2587.  Esto  significa  que  si  se  paga  una  tasa  de  interes  sobre  los  saldos  de  las  cuentas, 
es  probable  que,  en  promedio,  solo  alrededor  de  uno  de  cada  cuatro  clientes  tenga  una  tarjeta 
de  debito. 

Con  base  en  el  estadistico  RV  estimado,  observamos  que,  en  conjunto,  las  tres  variables  son 
estadlsticamente  significativas  en  el  nivel  aproximado  de  8.5%.  Si  usamos  el  nivel  convencional 
de  significancia  de  5%,  estas  variables  son  solo  marginalmente  significativas. 

El  valor  R2  McFadden  es  muy  bajo.  Con  los  datos,  el  lector  podra  averiguar  el  valor  de  la 
cuenta  R2. 

Como  ya  senalamos,  a  diferencia  del  MLP,  los  coeficientes  de  pendiente  no  dan  la  tasa  de 
cambio  de  la  probabilidad  por  cada  unidad  de  cambio  en  la  regresora.  Es  necesario  calcularlos 
como  se  muestra  en  la  tabla  15.6.  Por  fortuna,  esta  tarea  manual  no  es  necesaria,  pues  hay 
programas  estadlsticos,  como  el  STATA,  que  lo  hacen  de  forma  rutinaria.  En  este  ejemplo  los 
resultados  son  los  siguientes: 

Efectos  marginales  despues  de  logit: 

Y  =  Pr(debito)(pronostico) 

=  .42512423 


Variable 

dy/ dx 

Error  estandar 

z 

p  >  M 

[  95%  C. 

i.  i 

X 

Saldo  | 

.  000305 

.  00017 

1 . 79 

0 . 073 

-  .  000029 

. 000639 

1  499 . 87 

Interes* 

-  .2993972 

.  12919 

-2.32 

0 . 020 

-.552595 

. 046199 

.266667 

Cajero  automatico  | 

-  .  0293822 

.  02297 

-1.28 

0.201 

-  .  074396 

. 015631 

10.3 

*  dy/dx  representa  el  cambio  discreto  de  la  variable  dicotoma  de  0  a  1 . 

( continua ) 

566  Parte  Tres  Temas  de  econometna 


EJEMPLO  15.5 

( continuation ) 


El  coeficiente  0.000305  indica  que  los  clientes  que  mantienen  saldos  altos  tienen  0.03% 
mas  probabilidades  de  tener  una  tarjeta  de  debito,  pero  si  la  tasa  de  interes  aumenta  un  punto 
porcentual,  la  probabilidad  de  tener  una  tarjeta  de  debito  disminuye  casi  30%.  El  coeficiente 
de  Cajero  automatico,  aunque  estadfsticamente  insignificante,  indica  que  si  las  transacciones  en 
cajero  automatico  aumentan  una  unidad,  la  probabilidad  de  tener  una  tarjeta  de  debito  dismi¬ 
nuye  casi  2.9  por  ciento. 


15.9  Modelo  probit 


Como  mencionamos,  para  explicar  el  comportamiento  de  una  variable  dependiente  dicotoma  es 
preciso  utilizar  una  funcion  de  distribucion  acumulativa  (FDA)  seleccionada  apropiadamente.  El 
modelo  logit  utiliza  la  funcion  logistica  acumulativa,  como  se  indica  en  (15.5.2),  pero  no  es  la 
unica  FDA  posible.  En  algunas  aplicaciones,  la  FDA  normal  se  ha  encontrado  util.  El  modelo  de 
estimation  que  surge  de  una  FDA28  normal  se  conoce  comunmente  como  modelo  probit,  aunque 
algunas  veces  tambien  como  modelo  normit.  En  principio,  se  puede  sustituir  la  FDA  normal  por 
la  FDA  logistica  en  (15.5.2)  y  proceder  como  en  la  section  16.5.  Pero  en  lugar  de  seguir  este  ca- 
mino,  presentaremos  el  modelo  probit  basado  en  la  teoria  de  la  utilidad,  o  de  la  perspectiva  de  se¬ 
lection  rational  con  base  en  el  comportamiento,  segun  el  modelo  desarrollado  por  McFadden.29 

Para  motivar  el  modelo  probit,  suponga  que  en  el  ejemplo  de  propiedad  de  vivienda,  la  decision 
de  la  z'-esima  familia  de  tener  casa  propia  o  de  no  tenerla  depende  de  un  indice  de  conveniencia 
no  obsen’able  /,  (tambien  conocido  como  variable  latente),  determinado  por  una  o  diversas  va¬ 
riables  explicativas,  digamos,  el  ingreso  Xj,  de  manera  que  entre  mayor  sea  el  valor  del  indice  /„ 
mayor  sera  la  probabilidad  de  que  la  familia  posea  vivienda.  Expresamos  el  indice  /,  como 

Ii=P\  +  foXi  (15.9.1) 

donde  Xt  es  el  ingreso  de  la  z-esima  familia. 

(;C6mo  se  relaciona  el  indice  (no  observable)  con  la  decision  real  de  ser  propietario  de  una 
casa?  Igual  que  antes,  sea  Y  —  I  si  una  familia  es  propietaria  de  una  casa  y  Y  —  0  si  no  lo  es. 
Ahora  bien,  es  razonable  suponer  que  para  cada  familia  hay  un  nivel  critico  o  umbral  del  in¬ 
dice,  que  podemos  denominar  I*,  tal  que  si  I,  excede  a  I*,  la  familia  tendra  una  casa  propia,  de 
lo  contrario  no  lo  hara.  El  umbral  /*,  al  igual  que  /„  no  es  observable,  pero  si  suponemos  que 
esta  distribuido  normalmente  con  las  mismas  media  y  varianza,  es  posible  no  solo  estimar  los 
parametros  del  indice  dado  en  (15.9.1),  sino  tambien  obtener  alguna  information  sobre  el  propio 
indice  no  observable.  Este  calculo  se  muestra  de  la  siguiente  manera. 

Con  el  supuesto  de  normalidad,  la  probabilidad  de  que  I*  sea  menor  o  igual  que  /,  se  calcula  a 
partir  de  la  FDA  normal  estandar  como:30 

Pi  =  P(Y  =  1 1  X)  =  P(I*  <  /,-)  =  P(Z,  <  fa  +  faXt)  =  F(fa  +  faXt) 

(15.9.2) 

28 Vease  el  apendice  A  para  un  analisis  de  la  FDA  normal.  Brevemente,  si  una  variable  X  sigue  la  distribu¬ 
cion  normal  con  media  /r  y  varianza  a2,  su  FDP  es 

f(X)  =  1  p-(.x~^2i2P 

V2(727T 

y  su  FDA  es 

f  (X)  =  [X°  1  p-(X-h)2/2P 

J-oo  V2cr 2ti 

donde  Xo  es  algun  valor  especificado  de  X. 

29  D.  McFadden,  "Conditional  Logit  Analysis  of  Qualitative  Choice  Behaviour",  en  P.  Zarembka  (ed.),  Fron¬ 
tiers  in  Econometrics,  Academic  Press,  Nueva  York,  1973. 

30  Una  distribucion  normal  con  media  cero  y  varianza  unitaria  (=  1)  se  conoce  como  variable  normal  estan¬ 
dar  o  estandarizada.  (Vease  el  apendice  A.) 
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FIGURA  15.4 

Modelo  probit:  a)  dado 
/,■,  lea  Pi  en  la  ordenada; 
b)  dado  Piy  lea  /,■  en  la 
abscisa. 


Pi  =  P (h) 


Pi  =  Wt) 


l  l 


Ii=P1+P2Xi  h  =  F-\Pi) 


a) 


b) 


donde  P(Y  —  1 1 X)  significa  la  probabilidad  de  que  un  suceso  ocurra  dado(s)  el  (los)  valor(es) 
de  X  o  la(s)  variable(s)  explicativa(s),  y  donde  Z,-  es  la  variable  normal  estandarizada;  es  decir, 
Z  ~  N( 0.  a2).  F  es  la  FDA  normal  estandar,  que,  escrita  de  manera  explicita  en  el  presente  con- 
texto,  es: 


F(h)  =  ~^=  I''  e~^2dz 
\J  £71  J— oo 

(15.9.3) 

]  rPi+fcX, 

=  -L  I  e~*'2dz 

\J  2.71  J— oo 

Como  P  representa  la  probabilidad  de  que  ocurra  un  suceso,  en  este  caso  la  probabilidad  de 
tener  casa  propia,  se  mide  por  el  area  de  la  curva  normal  estandar  de  — oo  a  /,,  como  se  muestra 
en  la  figura  15.4a. 

Ahora,  para  obtener  informacion  sobre  el  indice  de  utilidad,  lo  mismo  que  para  y  /b,  se 
toma  la  inversa  de  (15.9.2)  para  obtener 


It  =  F-l(Ii)  =  F~\Pi) 
=  Pi  +  fhXi 


(15.9.4) 


donde  F~l  es  la  inversa  de  la  FDA  normal.  El  significado  de  todo  esto  se  aclara  con  la  figura  15.4. 
En  el  panel  a)  de  esta  figura  se  obtiene  (de  la  ordenada)  la  probabilidad  (acumulada)  de  tener  casa 
propia  dado  I*  <  /,,  mientras  que  en  el  panel  h)  se  obtiene  (de  la  abscisa)  el  valor  de  /,  dado  el 
valor  de  Ph  que  es  simplemente  el  inverso  del  primero. 

Pero,  especificamente,  ^como  obtenemos  el  indice  /,  al  igual  que  las  estimaciones  de  ySj  y  /S2? 
Como  en  el  caso  del  modelo  logit,  la  respuesta  depende  que  se  cuente  con  datos  agrupados  o 
desagrupados.  Consideramos  los  dos  casos  de  manera  individual. 


Estimation  de  probit  con  datos  agrupados:  gprobit 

Utilizaremos  los  mismos  datos  que  para  glogit,  los  cuales  se  muestran  en  la  tabla  15.4.  Como  ya 
tenemos  P,  la  frecuencia  relativa  (la  medida  empirica  de  probabilidad)  de  poseer  una  casa  propia 
para  diversos  niveles  de  ingresos,  como  se  muestra  en  la  tabla  15.5,  con  ella  obtenemos  7,  de  la 
FDA  normal,  como  se  muestra  en  la  tabla  15.10,  o  en  la  figura  15.5. 
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TABLA  15.10 

Estimation  del  l'ndice 
Ij  de  la  FDA  normal 
estandar 


Pi  li=F~\Pi) 


0.20 

-0.8416 

0.24 

-0.7063 

0.30 

-0.5244 

0.35 

-0.3853 

0.45 

-0.1257 

0.51 

0.0251 

0.60 

0.2533 

0.66 

0.4125 

0.75 

0.6745 

0.80 

0.8416 

Notas:  1)  Los  P,  provienen  de  la  tabla  15.5;  2)  los  /,  se  calculan  de  la  FDA  normal 
estandar. 


FIGURA  15.5 

FDA  normal. 


1 


Una  vez  estimado  el  /„  estimar  y  /J2  es  un  asunto  relativamente  sencillo,  como  mostraremos 
en  breve.  A  proposito,  observe  que  en  el  lenguaje  del  analisis  probit,  el  Indice  de  utilidad  no  ob¬ 
servable  /,  se  conoce  simplemente  como  desviacion  equivalente  normal  (d.e.n.)  o  solo  normit. 
Como  la  d.e.n.  o  /,■  sera  negativa  siempre  que  P,  <  0.5,  en  la  practica  se  agrega  el  numero  5  a  la 
d.e.n.  y  el  resultado  se  denomina  un  probit. 


EJEMPLO  15.6 

Ilustracion  de 
gprobit  mediante  el 
ejemplo  de  propie- 
dad  de  una  casa 


Continuemos  con  el  ejemplo  de  propiedad  de  una  casa.  Ya  presentamos  los  resultados  de  los 
modelos  glogit  para  este  ejemplo.  Los  resultados  del  probit  agrupado  (gprobit)  de  los  mismos 
datos  son  los  siguientes: 

Con  la  d.e.n.  (=  /)  dada  en  la  tabla  15.10,  los  resultados  de  la  regresion  son  los  de  la  tabla 
15. 11. 31  Los  resultados  de  la  regresion  basados  en  los  probits  (=  d.e.n.  +  5)  se  dan  en  la  ta¬ 
bla  15.12. 

A  excepcion  del  termino  del  intercepto,  estos  resultados  son  identicos  a  los  de  la  tabla  ante¬ 
rior.  Pero  esto  no  debe  sorprender.  (^Por  que?) 


31  Los  siguientes  resultados  no  estan  corregidos  por  heteroscedasticidad.  En  el  ejercicio  15.12  se  propone  un 
procedimiento  apropiado  con  el  objeto  de  corregir  la  heteroscedasticidad. 


Capltulo  1 5  Modelos  de  regresion  de  respuesta  cualitativa  569 


EJEMPLO  15.6 

( continuation ) 


TABLA  15.11 

Variable  dependiente : 

i 

Variable  Coeficiente 

Error  estandar 

Estadlstico  t 

Probabilidad 

C  -1.0166 

Ingreso  0.04846 

0 . 0572 

0 .00247 

-17 . 7473 

19 . 5585 

1 . 0397E-07 

4 . 8547E-08 

R 2  =  0.97951 

Estadlstico  de  Durbin-Watson  =  0 . 

.91384 

TABLA  15.12 

Variable  dependiente: 

Probit 

Variable  Coeficiente 

Error  estandar 

Estadlstico  t 

Probabilidad 

C  3.9833 

Ingreso  0.04846 

0 . 05728 

0 . 00247 

69 . 5336 

19 . 5585 

2 . 03737E-12 

4 . 8547E-08 

R2  =  0.9795 

Estadlstico  de  Durbin-Watson  =  0 . 

.9138 

Nota:  Estos  resultados  no  estan  corregidos  por  heteroscedasticidad  (vease  el  ejercicio  15.12). 

Interpretation  de  las  estimaciones  de  probit  en  la  tabla  15.11 

(',('61110  interpretamos  los  resultados  anteriores?  Suponga  que  deseamos  averiguar  el  efecto  de 
una  unidad  de  cambio  en  X  (ingreso  medido  en  miles  de  dolares)  sobre  la  probabilidad  de  que 
Y  —  1;  es  decir,  que  una  familia  adquiera  una  casa.  Para  hacerlo,  examine  la  ecuacion  (15.9.2). 
Deseamos  tomar  la  derivada  de  esta  funcion  respecto  de  X  (es  decir,  la  tasa  de  cambio  de  la  pro¬ 
babilidad  respecto  del  ingreso).  Resulta  que  su  derivada  es: 

a  p 

jY^m+fhXdfh  (15. 9. 5)32 

donde  /(/Si  +  /MQ  es  la  funcion  de  densidad  de  probabilidad  de  la  normal  estandarizada  eva- 
luada  en  +  /S2A).  Resulta  evidente  que  esta  evaluacion  dependera  del  valor  particular  de  las 
variables  X.  Tome  el  valor  de  X  de  la  tabla  15.5,  por  ejemplo,  X  —  6  (miles  de  dolares).  Con 
los  valores  estimados  de  los  parametros  proporcionados  en  la  tabla  15.11,  deseamos  encontrar 
la  funcion  de  densidad  normal  en  /[— 1.0166  +  0.04846(6)]  =  /(— 0.72548).  Si  consulta  las 
tablas  de  distribution  normal,  encontrara  que  para  Z  =  —0.72548,  la  densidad  normal  es  casi 
de  0.3066. 33  Ahora,  si  multiplica  ese  valor  por  el  coeficiente  de  pendiente  estimado  de  0.04846, 
obtiene  0.01485.  Esto  significa  que  si  empieza  con  un  nivel  de  ingreso  de  $6  000  y  el  ingreso 
aumenta  $1  000,  la  probabilidad  de  que  una  familia  compre  una  casa  se  incrementa  alrededor  de 
1.4%.  (Compare  este  resultado  con  el  de  la  tabla  15.6.) 

Como  se  ve  en  el  analisis  anterior,  el  calculo  de  cambios  en  la  probabilidad  mediante  el  mo- 
delo  probit  resulta  un  poco  tedioso,  en  comparacion  con  los  modelos  MLP  y  logit. 

En  vez  de  calcular  los  cambios  en  la  probabilidad,  suponga  que  deseamos  encontrar  las  pro- 
babilidades  estimadas  a  partir  del  modelo  gprobit  ajustado.  Esto  se  realiza  con  facilidad.  Con  los 


32  Utilizamos  la  regia  de  la  cadena  de  las  derivadas: 

dP,  dF(t)  dt 
dXi  =  dt  '  dX 

donde  t  =  f)-\  +  fcXj. 

33  Observe  que  la  normal  estandarizada  Z  puede  variar  de  — oo  hasta  +oo,  pero  la  funcion  de  densidad  f{Z) 
siempre  es  positiva. 
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datos  de  la  tabla  15.1 1  y  al  intercalar  los  valores  de  X de  la  tabla  15.5,  el  lector  puede  verificar 
que  los  valores  estimados  n.i.d.  (hasta  dos  dlgitos)  son  los  siguientes: 


X  6  8  10  13  15  20  25  30  35  40 

n.i.d.  estimados  -0.72  -0.63  -0.53  -0.39  -0.29  -0.05  0.19  0.43  0.68  0.92 


En  la  actualidad,  los  programas  estadlsticos  como  MINITAB  calculan  facilmente  las  probabili- 
dades  (acumulativas)  asociadas  a  los  diversos  n.i.d.  Por  ejemplo,  la  probabilidad  estimada  co- 
rrespondiente  a  un  valor  n.i.d.  de  —0.63  es  igual  a  0.2647,  y  la  correspondiente  a  un  valor  n.i.d. 
de  0.43  es  de  0.6691.  Si  comparamos  estas  estimaciones  con  los  valores  reales  dados  en  la  tabla 
15.5,  encontrara  que  ambos  estan  muy  cercanos  entre  si,  lo  cual  indica  que  el  modelo  ajustado  es 
bastante  bueno.  Graficamente,  lo  que  acabamos  de  realizar  ya  se  presento  en  la  figura  15.4. 


El  modelo  probit  para  datos  no  agrupados  o  individuales 

Vuelva  a  examinar  la  tabla  15.7,  que  proporciona  los  datos  de  32  individuos  respecto  de  sus  ca- 
lificaciones  finales  en  los  examenes  de  microeconomia  intermedia,  en  relacion  con  las  variables 
GPA,  TUCE  y  PSI.  Los  resultados  de  la  regresion  logit  se  presentan  en  la  tabla  15.8.  Vea  como 
lucen  los  resultados  probit.  Observe  que,  como  en  el  caso  del  modelo  logit  para  datos  individua¬ 
les,  tendremos  que  utilizar  un  procedimiento  de  calculo  no  lineal  basado  en  el  metodo  de  maxima 
verosimilitud.  Los  resultados  de  la  regresion  calculados  mediante  EViews  6  se  dan  en  la  tabla 
15.13. 

“Cualitativamente”,  los  resultados  del  modelo  probit  se  pueden  comparar  con  los  obtenidos 
mediante  el  modelo  logit,  pues  tanto  GPA  como  PSI  son  estadisticamente  significativas  en  lo  in¬ 
dividual.  En  conjunto,  todos  los  coeficientes  son  estadisticamente  significativos,  pues  el  valor  del 
estadistico  RV  es  15.5458,  con  un  valor p  de  0.0014.  Por  razones  dadas  en  secciones  posteriores, 
no  podemos  comparar  de  manera  directa  los  coeficientes  de  regresion  logit  y  probit. 

Para  propositos  comparativos,  presentamos  los  resultados  basados  en  el  modelo  lineal  de 
probabilidad  (MLP)  para  los  datos  de  calificaciones  de  la  tabla  15.14.  De  nuevo,  cualitativa- 


TABLA  15.13 


Variable  dependiente:  Calif icacion 
Metodo:  Probit  binario  MV 

Convergencia  lograda  despues  de  5  iteraciones 


Variable 

Coef iciente 

Error  estandar 

Estadistico  Z 

Probabilidad 

C 

-7.4523 

2 . 5424 

-2 . 9311 

0 . 0033 

GPA 

1 . 6258 

0 .6938 

2.3430 

0 . 0191 

TUCE 

0 . 0517 

0 . 0838 

0 .6166 

0 . 5374 

PSI 

1.4263 

5950 

2.3970 

0 . 0165 

Estadistico  RV  (3  gl)  =  15.5458  R2  McFadden  =  0.3774 
Probabilidad  (estadistico  RV)  =  0.0014 


TABLA  15.14 

Variable 

dependiente : 

Calif icacion 

Variable 

Coef iciente 

Error  estandar  Estadistico  t  Probabilidad 

C 

-1.4980 

0 . 5238 

-2 . 8594 

0 . 0079 

GPA 

0.4638 

0 . 1619 

2 . 8640 

0 . 0078 

TUCE 

0 . 0104 

0 . 0194 

0 . 5386 

0 . 5943 

PSI 

0.3785 

0.1391 

2 . 7200 

0 . 0110 

R2  =  0.4159 

Estadistico  d  de 

Durbin-Watson  = 

2.3464 

Estadistico  F 

=  6.6456 
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mente,  los  resultados  MLP  resultan  similares  a  los  de  los  modelos  logit  y  probit,  pues  GPA  y  PSI 
son  estadlsticamente  significativos  en  lo  individual,  pero  TUCE  no  lo  es.  Asimismo,  las  varia¬ 
bles  explicativas  en  conjunto  tienen  un  gran  efecto  en  la  calificacion,  pues  el  valor  F  de  6.6456 
es  estadlsticamente  significativo:  su  valor p  es  solo  de  0.0015. 


Efecto  marginal  de  un  cambio  unitario  en  el  valor 
de  una  regresora  sobre  los  diversos  modelos  de  regresion 

En  el  modelo  de  regresion  lineal,  el  coeficiente  de  la  pendiente  mide  el  cambio  en  el  valor  pro- 
medio  de  la  regresada,  debido  a  una  unidad  de  cambio  en  el  valor  de  la  regresora,  con  las  demas 
variables  constantes. 

En  el  MLP,  el  coeficiente  de  la  pendiente  mide  directamente  el  cambio  en  la  probabilidad  de 
que  ocurra  un  evento,  como  resultado  de  una  unidad  de  cambio  en  el  valor  de  la  regresora,  con 
un  efecto  constante  de  todas  las  demas  variables. 

En  el  modelo  logit,  el  coeficiente  de  la  pendiente  de  una  variable  indica  el  cambio  en  el  loga- 
ritmo  de  las  posibilidades  en  favor  de  que  ocurra  un  evento  asociadas  a  una  unidad  de  cambio 
en  esa  variable,  de  nuevo,  con  todas  las  demas  variables  constantes.  Pero  como  ya  dijimos,  para 
el  modelo  logit  la  tasa  de  cambio  en  la  probabilidad  de  que  ocurra  un  suceso  esta  dada  por  ftjP, 
(1  —  P,),  donde  ft,  es  el  coeficiente  (de  regresion  parcial)  de  la y-esima  regresora.  Pero  al  evaluar 
Pt,  participan  todas  las  variables  incluidas  en  el  analisis. 

En  el  modelo  probit,  como  ya  vimos,  la  tasa  de  cambio  de  la  probabilidad  es  un  tanto  compli- 
cada  y  esta  dada  por  ftjf(Z,),  donde  /(Z,)  es  la  funcion  de  densidad  de  la  variable  normal  estanda- 
rizada  y  Z,  —  ft\  +  fti^n  +  •  •  •  +  ftft^kh  es  decir,  el  modelo  de  regresion  utilizado  en  el  analisis. 

Por  tanto,  en  los  modelos  probit  y  logit  todas  las  regresoras  intervienen  en  el  calculo  de  los 
cambios  en  la  probabilidad,  en  tanto  que  en  el  MLP  solo  participa  la  y-esima  regresora.  Esta 
diferencia  tal  vez  sea  la  razon  de  la  anterior  popularidad  del  modelo  MLP.  Los  programas  esta- 
disticos  como  STATA  facilitan  ahora  en  gran  medida  la  tarea  de  calcular  la  tasa  de  cambio  de  la 
probabilidad  en  los  modelos  logit  y  probit.  Por  tanto,  en  la  actualidad  no  hay  necesidad  de  elegir 
el  MLP  solo  por  su  sencillez. 


15.10  Modelos  logit  y  probit 


Aunque  para  el  ejemplo  de  las  calificaciones  los  modelos  logit,  probit  y  MLP  dan  cualitati- 
vamente  resultados  semejantes,  nos  centraremos  en  los  modelos  logit  y  probit,  en  vista  de  los 
problemas  con  el  MLP  ya  mencionados.  De  los  modelos  logit  y  probit,  ycual  preferiria?  Para  la 
mayoria  de  las  aplicaciones,  los  modelos  son  muy  semejantes;  la  principal  diferencia  es  que  la 
distribucion  logistica  tiene  colas  un  poco  mas  anchas,  lo  cual  se  observa  en  la  figura  15.6.  Lo  an¬ 
terior  significa  que  la  probabilidad  condicional  P,  se  aproxima  a  cero  o  a  uno  con  una  tasa  menor 
en  el  modelo  logit,  en  comparacion  con  el  probit.  Esto  se  observa  con  mayor  claridad  en  la  tabla 
15.15.  Por  consiguiente,  no  existe  una  razon  de  peso  para  elegir  uno  y  no  otro.  En  la  practica, 
muchos  investigadores  eligen  el  modelo  logit  debido  a  su  comparativa  simplicidad  matematica. 

Aunque  los  modelos  son  similares,  se  debe  tener  cuidado  al  interpretar  los  coeficientes  esti- 
mados  por  ambos  modelos.  Por  ejemplo,  para  el  caso  de  las  calificaciones,  el  coeficiente  de  GPA, 
igual  a  1.6528  en  el  modelo  probit  (tabla  15.13)  e  igual  a  2.8261  en  el  modelo  logit  (tabla  15.8), 
no  son  directamente  comparables.  La  razon  es  que  aunque  las  distribuciones  logistica  estandar 
(la  base  para  el  logit)  y  normal  estandar  (la  base  para  el  probit)  tienen  ambas  media  cero,  sus  va- 
rianzas  son  diferentes;  1  para  la  normal  estandar  (como  ya  sabiamos)  y  n2/3  para  la  distribucion 
logistica,  donde  it  ~  22/7.  En  consecuencia,  si  multiplicamos  el  coeficiente  probit  por  aproxima- 
damente  1.81  (casi  igual  a  jt/V3),  tendremos  aproximadamente  el  coeficiente  logit.  Para  nuestro 
ejemplo,  el  coeficiente  probit  de  GPA  es  1.6258.  Al  multiplicarlo  por  1.81,  obtenemos  2.94,  cer- 
cano  al  coeficiente  logit.  Por  otra  parte,  si  multiplicamos  un  coeficiente  logit  por  0.55  (=  1/1.81), 
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FIGURA  15.6 

Distribuciones  acumulati- 
vas  logit  y  probit. 


P 


TABLA  15.15 

Valores  de  las  funciones 
de  probabilidad  acumu- 
lativas 


Normal  acumulativa 

Loglstica  acumulativa 

z 

1  rz  e~s2/2ds 

p'^-7sL 

P2(Z)-  1  _z 

1  +  e  z 

-3.0 

0.0013 

0.0474 

-2.0 

0.0228 

0.1192 

-1.5 

0.0668 

0.1824 

-1.0 

0.1587 

0.2689 

-0.5 

0.3085 

0.3775 

0 

0.5000 

0.5000 

0.5 

0.6915 

0.6225 

1.0 

0.8413 

0.7311 

1.5 

0.9332 

0.8176 

2.0 

0.9772 

0.8808 

3.0 

0.9987 

0.9526 

tendremos  el  coeficiente  probit.  Sin  embargo,  Amemiya  sugiere  multiplicar  una  estimacion  logit 
por  0.625,  a  fin  de  obtener  una  mejor  estimacion  para  el  correspondiente  probit  estimado.34  En 
sentido  inverso,  al  multiplicar  un  coeficiente  probit  por  1 .6  (=  1  /0.625),  obtenemos  el  coeficiente 
logit  correspondiente. 

A  proposito,  Amemiya  tambien  demostro  que  los  coeficientes  de  los  modelos  MLP  y  logit  se 
relacionan  de  la  siguiente  manera: 


/JMLP  =  0.25)3 i0git  excepto  para  el  intercepto 


y 


Pmlp  —  0.25ySiOgit  +  0.5  para  el  intercepto 

Se  deja  al  lector  la  tarea  de  verificar  si  las  aproximaciones  son  validas  para  el  ejemplo  de  las 
calificaciones. 

Para  concluir  el  analisis  de  los  modelos  MLP,  logit  y  probit,  consideraremos  otro  ejemplo. 


34  T.  Amemiya,  "Qualitative  Response  Model:  A  Survey",  journal  of  Economic  Literature,  vol.  1 9,  1 981, 
pp.  481  -536. 
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EJEMPLO  15.7 

Fumar  o  no  fumar 


TABLA  15.16 


TABLA  15.17 


Para  averiguar  que  factores  determinan  si  una  persona  sera  fumadora  o  no,  obtuvimos  datos 
sobre  1  196  sujetos  de  estudio.35  Para  cada  uno  de  ellos  se  presenta  informacion  sobre  esco- 
laridad,  edad,  ingreso  y  precio  de  los  cigarrillos  en  1979.  La  variable  dependiente  es  fumador, 
donde  1  corresponde  a  los  fumadores  y  0  a  los  no  fumadores.  En  el  ejercicio  1 5.20  realizaremos 
otro  analisis  basado  en  los  datos  de  la  tabla  1 5.28  del  sitio  web  del  libro.  Para  efectos  de  compa- 
racion,  presentamos  los  resultados  basados  en  los  modelos  MLP,  logit  y  probit  en  forma  tabular 
(tabla  1 5.1 6).  Estos  resultados  se  obtuvieron  con  la  version  1 0  de  STATA. 


Variables 

Constante 

Edad 

Escolaridad 

Ingreso 

Pcigs79 

R2 


MLP 

1.1230 

(5.96) 

-0.0047 

(-5.70) 

-0.0206 

(-4.47) 

1 ,03e-0.6 
(0.63) 
-0.0051 
(-1 .80) 
0.0388 


Logit 

2.7450 

(3.31) 

-0.0208 

(-5.58) 

-0.0909 

(-4.40) 

4.72e-06 

(0.66) 

-0.0223 

(-1.79) 

0.0297 


Probit 

1.7019 

(3.33) 

-0.0129 

(-5.66) 

-0.0562 

(-4.45) 

2.72e-06 

(0.62) 

-0.0137 

(-1.79) 

0.0301 


Notas:  Las  cifras  entre  parentesis  son  razones  t  en  el  MLP  y  z  en  los  modelos  logit  y  probit.  En 
logit  y  probit,  los  valores  R2  son  valores  pseudo  R2. 


Aunque  los  coeficientes  de  los  tres  modelos  no  se  pueden  comparar  de  manera  directa, 
en  el  sentido  cualitativo  son  similares.  Asf,  edad,  escolaridad  y  precio  de  los  cigarrillos  produ- 
cen  efecto  negativo  en  el  habito  de  fumar,  y  el  ingreso  tiene  efecto  positivo.  Estadfsticamente, 
el  efecto  del  ingreso  es  cero  y  el  efecto  del  precio  es  significativo  en  un  nivel  aproximado  a  8%. 
En  el  ejercicio  15.20  se  pide  al  lector  que  aplique  el  factor  de  conversion  para  producir  varios 
coeficientes  comparables. 

En  la  tabla  15.17  se  presenta  el  efecto  marginal  de  cada  variable  sobre  la  probabilidad  de 
fumar  en  cada  tipo  de  modelo. 


Variables 

MLP 

Logit 

Probit 

Edade 

-0.0047 

-0.0048 

-0.0049 

Escolaridad 

-0.0206 

-0.0213 

-0.0213 

Ingreso 

1 ,03e-06 

1.11  e— 06 

1 .03e-06 

Pcigs79 

-0.0051 

-0.0052 

-0.0052 

Nota:  Salvo  por  el  ingreso,  los  coeficientes  estimados  son  muy  significativos  estadisticamente  para 
edad  y  escolaridad,  y  significativos  en  un  nivel  aproximado  a  8%  para  el  precio  de  los  cigarrillos. 


Como  reconocera,  en  el  MLP  el  efecto  marginal  de  una  variable  sobre  la  probabilidad  de 
fumar  se  obtiene  directamente  de  los  coeficientes  de  regresion  estimados,  pero  en  los  modelos 
logit  y  probit  deben  calcularse  como  explicamos  en  el  capftulo. 

Es  interesante  que  los  efectos  marginales  de  los  tres  modelos  sean  muy  parecidos.  Por  ejem- 
plo,  si  el  nivel  de  escolaridad  aumenta,  en  promedio,  la  probabilidad  de  que  alguien  se  convierta 
en  fumador  se  reduce  en  alrededor  de  2%. 


35  Estos  datos  son  de  Michael  P.  Murray,  Econometrics:  A  Modern  Introduction,  Pearson/Addison-Wesley,  Bos¬ 
ton,  2006,  y  pueden  descargarse  de  www.aw-bc.com/murray. 


574  Parte  Tres  Temas  de  econometria 


15.11  Modelo  tobit 


Una  extension  del  modelo  probit  es  el  modelo  tobit,  desarrollado  por  James  Tobin,  economista 
laureado  con  el  Nobel.  Para  explicar  este  modelo  continuamos  con  el  ejemplo  de  propiedad  de 
vivienda.  En  el  modelo  probit,  el  objetivo  era  estimar  la  probabilidad  de  tener  una  casa  propia 
como  funcion  de  algunas  variables  socioeconomicas.  En  el  modelo  tobit,  el  interes  radica  en 
averiguar  la  cantidad  de  dinero  que  una  persona  o  familia  gasta  en  una  casa  en  relacion  con  las 
variables  socioeconomicas.  Ahora  tenemos  un  problema:  si  un  consumidor  no  compra  una  casa, 
obviamente  no  hay  informacion  sobre  el  gasto  en  vivienda  de  tales  consumidores;  se  tiene  tal 
informacion  solo  sobre  los  consumidores  que  en  efecto  compran  casa. 

Asi,  los  consumidores  se  dividen  en  dos  grupos,  uno  que  consiste,  por  ejemplo,  en  n\  con¬ 
sumidores  de  quienes  se  posee  informacion  sobre  las  regresoras  (por  ejemplo,  ingreso,  tasa  de 
interes  hipotecaria,  numero  de  personas  que  forman  la  familia,  etc.)  al  igual  que  sobre  la  variable 
regresada  (cantidad  de  gasto  en  vivienda),  y  otro  que  consiste,  por  ejemplo,  en  n2  consumidores 
de  quienes  solo  se  tiene  informacion  sobre  las  regresoras  pero  no  sobre  la  variable  regresada. 
Cuando  en  una  muestra  la  informacion  sobre  la  variable  regresada  esta  disponible  solo  para  al¬ 
gunas  observaciones,  se  conoce  como  muestra  censurada.36  Por  consiguiente,  el  modelo  tobit 
tambien  se  conoce  como  modelo  de  regresion  censurada.  Algunos  autores  los  llaman  modelos  de 
regresion  con  variable  dependiente  limitada  debido  a  la  restriccion  impuesta  sobre  los  valores 
tornados  por  la  variable  regresada. 

En  terminos  estadisticos,  el  modelo  tobit  se  expresa  como 

Yi  =  P i  +  foXt  +  iii  si  LD  >  0  ,  i;  r  j 

—  0  en  otro  caso 

donde  LD  =  lado  derecho.  Nota:  Se  pueden  agregar  facilmente  otras  variables  X  al  modelo. 

^Es  posible  estimar  la  regresion  (15.11.1)  solo  con  n\  observaciones  y  dejar  de  lado  sin  mas 
la  preocupacion  por  las  n2  observaciones  restantes?  La  respuesta  es  no,  pues  las  estimaciones  por 
MCO  de  los  parametros  obtenidos  del  subconjunto  de  n\  observaciones  estaran  sesgadas y  serdn 
inconsistentes;  es  decir,  estaran  sesgadas  pero  de  manera  asintotica.37 

Para  ver  esto,  considere  la  figura  15.7.  Como  muestra  esta  figura,  si  no  se  observa  Y  (debido 
a  la  censura),  todas  esas  observaciones  (=  n2),  denotadas  por  cruces,  quedaran  sobre  el  eje  ho¬ 
rizontal.  Si  se  observa  Y,  las  observaciones  (=  n\)  (senaladas  con  puntos)  quedaran  en  el  piano 
X-Y.  La  intuicion  indica  que  si  estimamos  una  regresion  basada  solo  en  las  n\  observaciones,  los 
coeficientes  resultantes  del  intercepto  y  de  la  pendiente  estaran  limitados  a  ser  diferentes  de 
los  que  obtendriamos  si  se  tomaran  en  cuenta  todas  las  (n\  +  n2)  observaciones. 

^Como  estimar  entonces  los  modelos  de  regresion  tobit  (o  censurados),  como  (15.11.1)?  El 
mecanismo  real  implica  al  metodo  de  maxima  verosimilitud,  que,  por  su  complejidad,  escapa  al 
alcance  de  este  libro.  Pero  el  lector  puede  obtener  mas  informacion  respecto  del  metodo  MV  en 
la  bibliografia.38 


36  Una  muestra  censurada  debe  diferenciarse  de  una  muestra  truncada,  en  la  cual  la  informacion  sobre 
las  regresoras  solo  esta  disponible  si  se  observa  la  variable  regresada.  No  analizaremos  este  tema  aquf,  pero 
el  lector  puede  consultar  William  H.  Greene,  Econometric  Analysis,  Prentice  Hall,  4a.  ed.,  Englewood  Cliffs, 
Nueva  Jersey,  cap.  1 9.  Para  un  analisis  intuitivo,  vease  Peter  Kennedy,  A  Guide  to  Econometrics,  The  MIT  Press, 
Cambridge,  Massachusetts,  4a.  ed.,  1998,  capftulo  16. 

37  El  sesgo  surge  porque  si  solo  se  consideran  las  n ;  observaciones  y  se  omiten  las  demas,  no  hay  garantfa  de 
que  E(Uj)  sera  necesariamente  igual  a  cero.  Y  sin  E{uf)  =  0  no  podemos  garantizar  que  los  estimadores  de 
MCO  seran  insesgados.  Este  sesgo  se  ve  facilmente  en  el  analisis  del  apendice  3A,  ecuaciones  (4)  y  (5). 

38  Vease  Greene,  op.  c/'f.  Hay  un  analisis  un  poco  menos  tecnico  en  Richard  Breen,  Regression  Models:  Censo- 
res,  Sampled  Selected  or  Truncated  Data,  Sage,  Newbury  Park,  California,  1996. 
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FIGURA  15.7 

Grafico  de  la  cantidad  de  Y 

dinero  que  gasta  el  con- 
sumidor  en  comprar  una 
casa  contra  el  ingreso. 


x :  Datos  no  disponibles 
sobre  gasto,  pero  si  sobre 
ingreso 
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gasto  e  ingreso 
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James  Heckman  propuso  un  metodo  alterno  y  mas  sencillo  que  el  MV.39  Consiste  en  un 
calculo  de  dos  pasos.  En  el  primero  estimamos  la  probabilidad  de  que  un  consumidor  tenga  una 
casa  propia,  con  base  en  el  modelo  probit.  En  el  siguiente  paso  estimamos  el  modelo  (15.11.1) 
anadiendole  una  variable  (llamada  razon  inversa  de  Mills  o  razon  de  riesgo),  la  cual  se  deriva 
a  partir  de  la  estimation  probit.  Para  conocer  el  mecanismo  real,  consulte  el  articulo  de  Hack- 
man.  El  procedimiento  Hackman  proporciona  estimaciones  consistentes  de  los  parametros  de 
(15.11.1),  pero  no  tan  eficientes  como  las  estimaciones  de  MV.  Como  los  programas  estadlsticos 
mas  modernos  cuenta  con  rutinas  de  MV,  serian  preferibles  en  vez  del  proceso  Hackman  de  dos 
pasos. 

Ilustracion  del  modelo  tobit:  modelo  de  Ray  Fair 
para  las  relaciones  extramaritales40 

En  un  interesante  y  novedoso  articulo  teorico,  Ray  Fair  recopilo  una  muestra  de  601  hombres  y 
mujeres  casados  por  primera  vez  y  analizo  sus  respuestas  a  la  pregunta  respecto  de  relaciones 
extramaritales.41  Las  variables  de  este  estudio  se  definen  como  sigue: 

Y  —  numero  de  relaciones  extramaritales  durante  el  ano  anterior,  0,  1,  2,  3,  4-10  (codificado 
como  7) 

Z i  =  0  para  la  mujer  y  1  para  el  hombre 
Z2  =  edad 

Z3  =  numero  de  anos  de  matrimonio 
Z4  =  hijos:  0  si  no  los  hay,  1  si  los  hay 

Z5  =  religiosidad  en  una  escala  de  1  a  5,  1  para  los  no  religiosos 

Z(,  —  escolaridad  en  anos:  basica  =  9,  licenciatura  =  12,  doctorado  u  otro  grado  =  20 

Z7  =  ocupacion,  escala  “Hollingshead”,  de  1  a  7 

Zx  =  autovaloracion  del  matrimonio,  1  =  muy  infeliz,  5  =  muy  feliz 


39  j.J.  Heckman,  "Simple  Selection  Bias  as  a  Specification  Error",  Econometrica,  vol.  47,  pp.  1 53-1 61 . 

40  Ray  Fair,  "A  Theory  of  Extramarital  Affaires",  Journal  of  Political  Economy,  vol.  86,  1978,  pp.  45-61 .  Para  el 
articulo  y  los  datos,  consulte  http://fairmodel.econ.yale.edu/rayfair/pdf/1978DAT.ZIP. 

41  En  1 969,  Psychology  Today  publico  un  cuestionario  con  1 01  preguntas  sobre  el  sexo  y  pidio  a  sus  lectores 
que  enviaran  por  correo  las  respuestas.  En  el  numero  correspondiente  a  julio  de  1 970  se  analizaron  los  resul- 
tados  de  la  encuesta  con  base  en  2  000  respuestas  que  se  recopilaron  de  forma  electronica.  Ray  Fair  extrajo 
la  muestra  de  601  casos  de  estas  respuestas. 


576  Parte  Tres  Temas  de  econometria 


TABLA  15.18 
Estimaciones  por  MCO 
y  tobit  de  las  relaciones 
extramaritales 


*  Las  cifras  entre  parentesis  son  los  valores  t. 

t  Las  cifras  entre  parentesis  son  los  valores  Z  (normal  estandarizados). 

Nota:  En  total  hay  601  observaciones,  de  las  cuales  451  tienen  valores  cero  para  la  variable  dependiente  (numero  de  relaciones 
extramaritales),  y  150,  valores  diferentes  de  cero. 


Variable  explicativa 

Estimaciones  MCO 

Estimaciones  tobit 

Intercepto 

5.8720  (5.1622)* 

7.6084  (1.9479)* 

Zj 

0.0540  (0.1799) 

0.9457  (0.8898) 

z2 

-0.0509  (-2.2536) 

-0.1926  (-2.3799) 

Zb 

0.1694  (4.1109) 

0.5331  (3.6368) 

z4 

-0.1426  (-0.4072) 

1.0191  (0.7965) 

Zs 

-0.4776  (-4.2747) 

-1.6990  (-4.1906) 

z6 

-0.0137  (-0.2143) 

0.0253  (0.1113) 

z7 

0.1049  (1.1803) 

0.2129  (0.6631) 

z8 

-0.7118  (-5.9319) 

-2.2732  (-5.4724) 

R2 

0.1317 

0.1515 

De  las  601  respuestas,  451  individuos  no  tuvieron  relaciones  extramaritales  y  150  tuvieron  una 
o  mas. 

En  terminos  de  la  figura  15.7,  si  graficamos  el  numero  de  relaciones  en  el  eje  vertical  y,  por 
ejemplo,  la  escolaridad  en  el  horizontal,  habra  451  observaciones  a  lo  largo  del  eje  horizontal. 
Por  tanto,  tenemos  una  muestra  censurada,  asi  que  resulta  apropiado  un  modelo  tobit. 

La  tabla  15.18  proporciona  las  estimaciones  del  modelo  anterior  obtenidas  mediante  los  pro- 
cedimientos  MCO  (inapropiado)  y  MV  (apropiado).  Como  se  observa,  el  metodo  de  MCO  in- 
cluye  451  individuos  que  no  tuvieron  relaciones  y  150  que  tuvieron  una  o  mas.  El  metodo  MV 
toma  esto  en  cuenta  de  manera  explicita,  pero  los  MCO  no;  he  aqul  la  diferencia  entre  las  dos  es¬ 
timaciones.  Por  razones  ya  vistas,  debemos  confiar  en  las  estimaciones  MV  y  no  en  las  de  MCO. 
Los  coeficientes  en  ambos  modelos  pueden  interpretarse  como  cualesquiera  otros  coeficientes  de 
regresion.  El  coeficiente  negativo  de  Zg  (felicidad  marital)  significa  que  mientras  mas  feliz  se  es, 
menor  es  la  incidencia  de  relaciones  extramaritales,  hallazgo  que  quiza  no  sorprenda. 

A  proposito,  observe  que  si  nos  interesa  la  probabilidad  de  las  relaciones  extramaritales  y  no 
su  numero,  podemos  utilizar  el  modelo  probit,  con  7=0  para  los  individuos  que  no  tuvieron 
relaciones  de  ese  tipo  y  7  =  1  para  los  que  si  las  tuvieron,  cuyos  resultados  se  muestran  en  la 
tabla  15.19.  Si  ya  saben  elaborar  modelos  probit,  los  lectores  deben  ser  capaces  de  interpretar  los 
resultados  probit  de  dicha  tabla. 


15.12  Creacion  de  modelos  para  datos  de  cuenta: 
modelo  de  regresion  de  Poisson 


Existen  muchos  fenomenos  en  los  que  la  regresada  es  del  tipo  de  cuenta,  como  el  numero  de 
vacaciones  tomadas  por  una  familia  en  un  ano,  el  numero  de  patentes  otorgadas  a  una  empresa 
en  un  ano,  el  numero  de  visitas  a  un  dentista  o  a  un  doctor  en  un  ano,  el  numero  de  visitas  a  un 
supermercado  en  una  semana,  el  numero  de  infracciones  por  estacionarse  mal  o  conducir  con 
exceso  de  velocidad  en  un  ano,  el  numero  de  dias  en  un  hospital  durante  un  periodo  determinado, 
la  cantidad  de  automoviles  que  pasan  por  una  caseta  en  un  intervalo  de,  por  ejemplo,  cinco  mi- 
nutos,  etc.  La  variable  en  cada  caso  es  discreta:  toma  solo  un  numero  finito  de  valores.  A  veces 
los  datos  de  cuenta  se  refieren  a  ocurrencias  raras  o  poco  frecuentes,  como  ser  alcanzado  por  un 
rayo  en  el  lapso  de  una  semana,  ganar  mas  de  dos  veces  la  loteria  en  dos  semanas  o  tener  uno  o 
mas  ataques  al  corazon  en  el  transcurso  de  cuatro  semanas.  <^C6mo  elaboramos  los  modelos  de 
estos  fenomenos? 
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TABLA  15.19 


Variable  dependiente:  YSTAR 

Metodo:  Logit 
Muestra:  1-601 

binario  MV 

Observaciones 

incluidas :  601 

Convergencia  lograda  despues  de 

5  iteraciones 

Variable 

Coef iciente 

Error  estandar 

Estadlstico  Z 

Probabilidad 

C 

0 .779402 

0 .512549 

1 . 520638 

0 . 1284 

Zi 

0 . 173457 

0 . 137991 

1.257015 

0.2087 

z2 

-0 . 024584 

0 . 010418 

-2.359844 

0 . 0183 

Zi 

0 . 054343 

0 . 018809 

2 .889278 

0 . 0039 

Z4 

0.216644 

0 . 165168 

1.311657 

0 . 1896 

-0 . 185468 

0 . 051626 

-3 .592551 

0 . 0003 

z6 

0 . 011262 

0 . 029517 

0.381556 

0 .7028 

Zn 

0 . 013669 

0 . 041404 

0.330129 

0 . 7413 

zs 

-0.271791 

0 . 053475 

-5.082608 

0 . 0000 

Media  de  la  variable 

Desviacion  estandar  de  la 

dependiente 

0.249584  variable  dependiente 

0.433133 

Error  estandar 

de  la  regresion 

0.410279  Criterio 

de  informacion  de 

Akaike  1.045584 

Suma  de  cuadrados  residual 

99.65088  Criterio 

de  Schwarz 

1 . 111453 

Log  verosimilitud 

-305.1980  Criterio 

de  Hannan -Quinn 

1 . 071224 

Log  verosimilitud  restr. 

-337.6885  Promedio 

log  verosimilitud 

-0.507817 

Estadlstico  RV 

(8  gl) 

64.98107  R  cuadrada  McFadden 

0 .096215 

Probabilidad  ( 

estadlstico  RV) 

4 . 87E-11 

Obs .  con  Dep  = 

0 

451  Total  de 

obs  . 

601 

Obs .  con  Dep  = 

1 

150 

Del  mismo  modo  que  elegimos  la  distribution  de  Bernoulli  para  el  modelo  de  decisiones  del 
tipo  si/no  en  el  modelo  lineal  de  probabilidad,  la  distribution  de  probabilidades  especificamente 
adecuada  para  los  datos  de  cuenta  es  la  distribution  de  probabilidades  de  Poisson.  La  fdp  de  la 
distribucion  de  Poisson  esta  da  da  por:42 

^  Y  =  0,  1,2,...  (15.12.1) 

donde  /(>')  denota  la  probabilidad  de  que  la  variable  Y  tome  valores  enteros  no  negativos, 
y  donde  Yl  (se  lee  como  Y factorial)  significa  Y\  —  Y  x  (7—  1)  x  (7—  2)  x  2  x  1.  Se  puede 
demostrar  que 


E(Y)  =  n  (15.12.2) 

var  (Y)  =  n  (15.12.3) 

Observe  una  caracteristica  importante  de  la  distribucion  de  Poisson:  su  varianza  es  la  misma  que 
el  valor  de  su  media. 

El  modelo  de  regresion  de  Poisson  se  expresa  como: 

Yt  =  E(Yt )  +  m  =  ji,  +  Ui  (15.12.4) 


42 


Consulte  cualquier  libro  usual  de  estadlstica  para  los  detalles  de  esta  distribucion. 


578  Parte  Tres  Temas  de  econometria 


EJEMPLO  15.8 

Un  ejemplo  ilus- 
trativo:  estudio 
geriatrico  sobre  la 
frecnencia  de  cai- 
das 


TABLA  15.20 


donde  las  Y  estan  independientemente  distribuidas  como  variables  aleatorias  Poisson,  con  una 
media  g,  para  cada  individuo  expresada  como 


/!•,  =  E(Yt)  =  fa  +  p2X2i  +  fox*  +  ■  ■  ■  +  faXki  (15.12.5) 

donde  las  X  son  algunas  variables  que  afectarian  el  valor  de  la  media.  Por  ejemplo,  si  la  variable 
de  cuenta  es  el  numero  de  visitas  al  Museo  Metropolitano  de  Nueva  York  en  un  ano  determinado, 
esta  cifra  dependent  de  variables  como  el  ingreso  del  consumidor,  el  precio  de  entrada,  la  distan- 
cia  al  museo  y  las  tarifas  de  estacionamiento. 

Para  propositos  de  calculo,  expresamos  el  modelo  como 

II  ^ 

Yi  —  — - b  Uj  (15.12.6) 

en  donde  g  esta  sustituida  por  (15.12.5).  Como  se  aprecia  facilmente,  el  modelo  de  regresion 
resultante  sera  no  lineal  en  los  parametros,  por  lo  que  requiere  una  estimacion  de  regresion  no 
lineal,  que  analizamos  en  el  capitulo  anterior.  Consideremos  un  ejemplo  concreto  para  ver  como 
funciona  esto. 


Estos  datos  se  recopilaron  por  Neter  et  a/.43  Los  datos  se  refieren  a  100  individuos  de  65  anos 
de  edad  o  mayores.  El  objetivo  del  estudio  fue  registrar  el  numero  de  caidas  (=  Y )  sufridas  por 
estos  individuos  segun  el  sexo  (X2  =  0  si  es  mujery  1  si  es  hombre),  fndice  de  equilibrio  (X3)  e 
fndice  de  fortaleza  (X4).  Mientras  mayor  sea  el  fndice  de  equilibrio,  mas  estable  sera  el  sujeto; 
y  mientras  mayor  sea  el  fndice  de  fortaleza,  mas  fuerte  sera  el  individuo.  Para  averiguar  si  la 
escolaridad,  o  la  escolaridad  mas  los  ejercicios  aerobicos,  influyen  en  el  numero  de  cafdas,  los 
autores  introdujeron  la  variable  adicional  (Xi),  llamada  variable  de  intervention,  la  cual  Xi  =  0  si 
solo  interviene  la  escolaridad,  y  Xi  =  1  si  se  trata  de  la  escolaridad  mas  los  ejercicios  aerobicos. 
Los  sujetos  se  asignaron  de  manera  aleatoria  a  los  dos  metodos  de  intervencion. 

Con  EViews  6  obtuvimos  los  resultados  de  la  tabla  1 5.20. 


Variable  dependiente :  Y 
Muestra:  1-100 

Convergencia  lograda  despues  de  7  iteraciones 
Y=EXP (0(0) +C(1) *X1+C(2) *X2+C(3) *X3+C(4) *X4) 


Coef iciente 

Error  estandar 

Estadlstico  t 

Probabilidad 

C(0) 

0.37020 

0.3459 

1 . 0701 

0.2873 

C(l) 

-1 . 10036 

0 . 1705 

-6.4525 

0 .0000 

C  ( 2 ) 

-0 . 02194 

0 . 1105 

-0 . 1985 

0 . 8430 

C(3 ) 

0 . 01066 

0 . 0027 

3 . 9483 

0 .0001 

C  ( 4 ) 

0 . 00927 

0 .00414 

2.2380 

0 . 0275 

R2  =  0.4857  R2  ajustada  =  0.4640 

Log  verosimilitud  =  -197.2096  Estadlstico  de  Durbin-Watson  =  1.7358 


Nota:  EXP(  )  significa  e  (la  base  del  logaritmo  natural)  elevado  a  la  expresion  entre  parentesis. 


43  John  Meter,  Michael  H.  Kutner,  Christopher  J.  Nachtsheim  y  William  Wasserman,  Applied  Regression 
Models,  Irwin,  3a.  ed.,  Chicago,  1 996.  Los  datos  provienen  del  disco  de  datos  incluido  en  el  libro  y  se 
refieren  al  ejercicio  14.28. 
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EJEMPLO  15.8 

( continuation ) 


Interpretation  de  los  resultados.  Tenga  en  cuenta  que  lo  que  obtuvimos  en  la  tabla  15.20  es 
el  valor  medio  estimado  para  el  /-esimo  individuo,  /},;  es  decir,  lo  que  estimamos  es: 


r,  —  O0.3702— 1.1  00366X,,— 0.021  94X2/ +0.0106X3/ +0.00927X4, 


(15.12.7) 


Para  encontrar  el  valor  medio  real  del  /-esimo  sujeto  necesitamos  colocar  los  valores  de  las  distin- 
tas  variables  X  de  ese  sujeto.  Por  ejemplo,  el  sujeto  99  tuvo  estos  valores:  Y=  4,  Xi  =  0,  X2  =  1, 
X3  =  50  y  X4  =  56.  Al  colocar  dichos  valores  en  (1 5.1 2.7),  obtenemos  £99  =  3.3538  como  valor 
medio  estimado  del  sujeto  99.  El  valor  real  Y  de  este  individuo  fue  4. 

Ahora  bien,  si  deseamos  saber  la  probabilidad  de  que  un  sujeto  similar  al  99  sufra  menos  de 
cinco  cafdas  al  ano,  se  obtiene  mediante: 


P(Y  <  5)  =  P(Y  =  0)+  P(Y  =  1)+  P(Y  =  2)+  P(Y  =  3)  +  P(Y  =  4) 

_  (3.3538)°e“3-3538  (  3.3  5  3  8)1  e'3-3538  (3.3538)2e~3-3538 

~ 0!  +  V.  +  2I- 

(3.3538)3e~3-3538  (  3.3  5  3  8)4e*3-3538 

+  3!  +  4! 

=  0.7491 


Asimismo,  calculamos  el  efecto  marginal  o  parcial  que  una  regresora  tiene  en  el  valor  medio 
de  Y  de  la  siguiente  manera.  En  terminos  de  este  ejemplo,  suponga  que  deseamos  averiguar  el 
efecto  de  un  incremento  de  una  unidad  en  el  fndice  de  fortaleza  (X4)  sobre  la  media  Y.  Como 

^  —  eCo+Ci  X1/+C2X2/+C3X3/+C4X4,  (15.12.8) 

deseamos  conocer  3/x/3X4.  Con  la  regia  de  la  cadena  del  calculo,  demostramos  facilmente  que 
lo  anterior  es  igual  a 

=  C4eCo+Cl  Xl ' +C2  X2'  + c  3  2C3, + c4  x4,  =  C4jti  (15.12.9) 

Es  decir,  la  tasa  de  cambio  del  valor  medio  respecto  de  la  regresora  es  igual  al  coeficiente  de  esa 
regresora  multiplicado  por  el  valor  medio.  Por  supuesto,  el  valor  medio  /./  depende  de  los  valores 
tornados  por  todas  las  regresoras  en  el  modelo.  Esto  es  similar  a  los  modelos  probit  y  logit  ya 
analizados,  en  los  que  la  contribution  marginal  de  una  variable  tambien  dependfa  de  los  valores 
tornados  por  todas  las  variables  del  modelo. 

De  regreso  a  la  importancia  estadfstica  de  los  coeficientes  individuales,  observamos  que  el 
intercepto  y  la  variable  X2  son  estadfsticamente  significativas  en  lo  individual.  Pero  note  que  los 
errores  estandar  dados  en  la  tabla  son  asintoticos  y,  por  tanto,  los  valores  t  deben  interpretarse 
de  manera  asintotica.  Como  ya  mencionamos,  por  lo  general  los  resultados  de  todos  los  proce- 
dimientos  iterativos  de  estimacion  no  lineales  solo  tienen  validez  en  muestras  grandes. 

Para  concluir  el  analisis  del  modelo  de  regresion  de  Poisson,  vale  la  pena  mencionar  que  el 
modelo  hace  supuestos  restrictivos,  como  el  que  la  media  y  la  varianza  del  proceso  de  Poisson 
son  iguales  y  que  la  probabilidad  de  una  ocurrencia  es  constante  en  cualquier  punto  en  el 
tiempo. 


15.13  Otros  temas  de  los  modelos  de  regresion  de 
respuesta  cualitativa 


Como  expresamos  al  principio,  el  tema  de  los  modelos  de  regresion  con  respuesta  cualitativa 
es  amplio.  Lo  que  presentamos  en  este  capitulo  son  algunos  modelos  basicos  de  este  tema.  Para 
quienes  deseen  adentrarse  mas  en  esta  area,  a  continuacion  estudiaremos  muy  brevemente  otros 
modelos.  No  profundizaremos  en  ellos,  pues  estan  fuera  del  alcance  de  esta  obra. 
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Modelos  ordinales  logit  y  probit 

En  los  modelos  bivariados  logit  y  probit,  el  interes  residla  en  construir  un  modelo  para  una  va¬ 
riable  de  respuesta  del  tipo  si  o  no.  Pero  a  menudo  la  variable  de  respuesta,  o  regresada,  puede 
tener  mas  de  dos  resultados,  y  con  mucha  frecuencia  son  ordinales  por  naturaleza;  es  decir, 
no  pueden  expresarse  en  una  escala  de  intervalo.  Suele  suceder  que  en  las  investigaciones  del 
tipo  de  encuesta  las  respuestas  se  den  en  una  escala  de  tipo  Likert,  por  ejemplo,  “totalmente  de 
acuerdo”,  “algo  de  acuerdo”,  o  “totalmente  en  desacuerdo”.  O  las  respuestas  de  una  encuesta 
sobre  educacion  quiza  sean  “menor  a  la  educacion  media  superior”,  “educacion  media  superior”, 
“licenciatura”,  “posgrado”.  Muy  a  menudo  tales  respuestas  se  codifican  como  0  (menor  a  la 
educacion  media  superior),  1  (educacion  media  superior),  2  (licenciatura)  y  3  (posgrado).  Estas 
son  escalas  ordinales,  pues  hay  un  orden  claro  entre  las  categorias,  pero  no  podemos  decir  que 
2  (licenciatura)  es  dos  veces  1  (educacion  media  superior),  o  que  3  (posgrado)  es  tres  veces  1 
(educacion  media  superior). 

Para  estudiar  estos  fenomenos  extendemos  los  modelos  bivariados  logit  y  probit  a  fin  de  que 
tomen  en  cuenta  multiples  categorias  ordenadas.  La  aritmetica  tiene  mucho  que  ver,  pues  se 
precisan  distribuciones  de  probabilidades  logistica  y  normal  en  multiples  etapas  para  las  diversas 
categorias  ordenadas.  Respecto  de  las  matematicas  necesarias  y  algunas  de  sus  aplicaciones,  el 
lector  puede  consultar  los  textos  de  Greene  y  Maddala  ya  citados.  En  un  nivel  comparativamente 
intuitivo,  puede  consultar  la  monografia  de  Liao.44  Los  programas  de  software  como  L1MDEP, 
EViews,  STATA  y  SHAZAM  tienen  rutinas  para  estimar  los  modelos  logit  y  probit  ordenados. 


Modelos  multinomiales  logit  y  probit 

En  los  modelos  probit  y  logit  ordenados,  las  variables  de  respuesta  tienen  mas  de  dos  categorias 
ordenadas  o  jerarquizadas.  Pero  existen  situaciones  en  las  que  la  regresada  no  esta  ordenada. 
Por  ejemplo,  considere  la  eleccion  del  transporte  para  ir  al  trabajo.  Las  elecciones  son  bicicleta, 
motocicleta,  automovil,  autobus  o  tren.  Aunque  son  respuestas  categoricas,  no  existe  jerarquia 
ni  orden;  en  esencia,  tienen  una  naturaleza  nominal.  Otro  ejemplo:  las  clasificaciones  laborales, 
como  mano  de  obra  no  especializada,  semiespecializada  y  muy  especializada.  De  nuevo,  no  hay 
ningun  orden.  De  manera  semejante,  las  elecciones  ocupacionales,  como  autoempleado,  em- 
pleado  de  una  empresa  privada,  empleado  de  una  oficina  gubernamental  local  y  empleado  de  una 
oficina  gubernamental  federal,  son  de  caracter  esencialmente  nominal. 

Las  tecnicas  de  los  modelos  probit  y  logit  multinomiales  sirven  para  estudiar  esas  catego¬ 
rias  nominales.  Una  vez  mas,  las  matematicas  intervienen  en  cierta  medida.  Las  referencias  ya 
citadas  ofrecen  los  elementos  esenciales  de  esas  tecnicas.  Asimismo,  el  software  estadistico  ya 
mencionado  es  util  para  aplicar  tales  modelos  si  asi  se  requiere  en  casos  especificos. 


Modelos  de  duracion 

Considere  preguntas  como  las  siguientes:  1)  (',que  determina  la  duracion  de  los  intervalos  de  des- 
empleo?,  2)  (',quc  determina  la  vida  de  un  foco?,  3)  (',quc  factores  determinan  la  duracion  de  una 
huelga?,  4)  ^que  determina  el  tiempo  de  sobrevivencia  de  un  paciente  V1H  positivo? 

Materias  como  las  anteriores  son  el  tema  de  los  modelos  de  duracion,  popularmente  conocidos 
como  analisis  de  supervivencia  o  analisis  de  datos  del  tiempo  a  un  suceso.  En  cada  ejemplo 
citado,  la  variable  clave  es  la  longitud  del  tiempo  o  la  longitud  del  intervalo,  cuyo  modelo  es  una 
variable  aleatoria.  Una  vez  mas,  las  matematicas  implican  las  FDP  y  las  FDA  de  distribuciones 
de  probabilidades  apropiadas.  Aunque  los  detalles  tecnicos  pueden  resultar  tediosos,  hay  libros 
accesibles  sobre  la  materia.45  El  software  estadistico  como  STATA  y  LIMDEP  estima  con  faci- 


44 Tim  Futing  Liao,  op.  cit. 

45  Vease,  por  ejemplo,  David  W.  Hosmer,  Jr.,  y  Stanley  Lemeshow,  Applied  Survival  Analysis,  John  Wiley  & 
Sons,  Nueva  York,  1999. 
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lidad  tales  modelos  de  duracion.  Estos  paquetes  cuentan  con  ejemplos  resueltos  para  ayudar  al 
investigador  con  tales  modelos. 


Resumen  y 
conclusiones 


1 .  Los  modelos  de  regresion  con  respuesta  cualitativa  se  refieren  a  modelos  en  los  que  la  varia¬ 
ble  de  respuesta,  o  regresada,  no  es  cuantitativa  ni  en  escala  de  intervalo. 

2.  El  modelo  de  regresion  con  respuesta  cualitativa  mas  sencillo  posible  es  el  modelo  binario  en 
el  que  la  regresada  es  del  tipo  si/no  o  presencia/ausencia. 

3.  El  modelo  de  regresion  binario  mas  sencillo  posible  es  el  modelo  lineal  de  probabilidad 
(MLP),  en  el  que  se  hace  la  regresion  sobre  la  variable  de  respuesta  binaria  con  la  metodo- 
logia  de  MCO  estandar.  En  este  caso,  la  simplicidad  quiza  no  sea  una  virtud,  pues  el  MLP 
experimenta  diversos  problemas  de  estimacion.  Aunque  se  superen  algunos  de  dichos  pro- 
blemas  de  estimacion,  la  debilidad  fundamental  del  MLP  es  que  supone  que  la  probabilidad 
de  que  algo  suceda  se  incrementa  de  manera  lineal  en  funcion  del  nivel  de  la  regresora;  este 
supuesto  tan  restrictive  se  evita  con  los  modelos  probit  y  logit. 

4.  En  el  modelo  logit,  la  variable  dependiente  es  el  logaritmo  de  la  razon  de  probabilidades,  la 
cual  es  una  funcion  lineal  de  las  regresoras.  La  funcion  de  probabilidades  del  modelo  logit  es 
la  distribucion  logistica.  Si  se  contara  con  los  datos  de  manera  agrupada,  se  utilizarian  MCO 
para  calcular  los  parametros  del  modelo  logit,  siempre  y  cuando  se  tome  en  cuenta  de  manera 
explicita  la  naturaleza  heteroscedastica  del  termino  de  error.  Si  se  dispone  de  los  datos  en  el 
nivel  individual  o  micro,  se  requeririan  los  procedimientos  de  estimacion  no  lineales  en  los 
parametros. 

5.  Si  elegimos  la  distribucion  normal  como  la  distribucion  de  probabilidades  apropiada,  se 
emplea  el  modelo  probit,  aunque  es  matematicamente  mas  dificil  porque  requiere  integrales. 
Pero  para  propositos  practicos,  los  resultados  de  los  modelos  logit  y  probit  son  similares.  En 
la  practica,  la  election  depende  de  la  facilidad  de  calculo,  lo  cual  no  representa  un  problema 
grave  en  vista  del  complejo  software  estadistico  que  hay  ahora. 

6.  Si  la  variable  de  respuesta  es  del  tipo  de  cuenta,  el  modelo  mas  frecuente  en  el  trabajo 
aplicado  es  el  de  regresion  de  Poisson,  que  se  basa  en  la  distribucion  de  probabilidades  de 
Poisson. 

7.  Un  modelo  estrechamente  relacionado  con  el  modelo  probit  es  el  tobit,  tambien  conocido 
como  modelo  de  regresion  censurado.  En  dicho  modelo,  la  variable  de  respuesta  se  observa 
solo  si  se  cumple(n)  cierta(s)  condicion(es).  Asi,  la  pregunta  de  que  cantidad  se  gasta  en  un 
automovil  resulta  significativa  solo  si,  para  empezar,  se  decide  adquirir  un  automovil.  Sin 
embargo,  Maddala  observa  que  el  modelo  tobit  es  “aplicable  solo  en  esos  casos  en  donde  la 
variable  latente  [es  decir,  la  variable  basica  que  subyace  en  un  fenomeno]  puede,  en  princi- 
pio,  adoptar  valores  negativos,  y  los  valores  nulos  observados  son  una  consecuencia  de  la 
censura  y  la  no  observabilidad”.46 

8.  Existen  varias  extensiones  del  modelo  de  regresion  con  respuesta  binaria,  como  los  modelos 
probit  y  logit  ordenados,  asi  como  los  probit  y  logit  nominales.  La  filosofia  de  estos  modelos 
es  la  misma  que  la  de  los  modelos  logit  y  probit  mas  sencillos,  a  pesar  de  que  las  matematicas 
se  complican  un  poco. 

9.  Por  ultimo,  mencionamos  brevemente  los  llamados  modelos  de  duracion,  en  los  que  la  dura¬ 
cion  de  un  fenomeno,  como  el  desempleo  o  la  enfermedad,  depende  de  diversos  factores.  En 
tales  modelos,  la  longitud  o  el  intervalo  de  duracion  se  convierten  en  una  variable  de  interes 
para  la  investigation. 


46 


C.S.  Maddala,  Introduction  to  Econometrics,  2a.  ed.,  Macmillan,  Nueva  York,  1992,  p.  342. 
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EJERCICIOS 


Preguntas 

15.1.  Consulte  la  information  de  la  tabla  15.2.  Si  Y,  es  negativa,  suponga  que  es  igual  a  0.01,  y 
si  es  mayor  que  1,  suponga  que  es  igual  a  0.99.  Recalcule  las  ponderaciones  w,  y  estime  el 
MLP  mediante  MCP.  Compare  los  resultados  con  los  dados  en  (15.2.1 1)  y  comentelos. 

15.2.  Para  la  information  sobre  propiedad  de  vivienda  de  la  tabla  15.1,  las  estimaciones  de 
maxima  verosimilitud  del  modelo  logit  son  las  siguientes: 

Lt  —  In  ^ =  —493(54+  32.96  ingreso 

f  =  (-0.0000081(0.000008) 

Comente  estos  resultados,  teniendo  en  mente  que  todos  los  valores  de  ingreso  por  encima 
de  16(1  000  dolares)  corresponden  a  Y  —  1  y  todos  los  valores  de  ingreso  por  debajo  de 
16  corresponden  af=0J  priori,  /,que  esperaria  en  tal  situation? 

15.3.  A1  estudiar  la  compra  de  bienes  imperecederos  Y  {Y  =  1  si  hubo  compra,  Y  —  0  si  no  la 
hubo)  como  funcion  de  diversas  variables  para  un  total  de  762  familias,  Janet  A.  Fisher* 
obtuvo  los  siguientes  resultados  del  MLP: 


Variable  explicativa 

Coeficiente 

Error  estandar 

Constante 

0.1411 

— 

Ingreso  disponible  1957,  Xi 

0.0251 

0.0118 

(Ingreso  disponible  =  Xi)2,  X2 

-0.0004 

0.0004 

Cuentas  corrientes,  X3 

-0.0051 

0.0108 

Cuentas  de  ahorro,  X4 

0.0013 

0.0047 

Bonos  de  ahorro  de  Estados  Unidos,  X5 

-0.0079 

0.0067 

Condicion  de  vivienda:  alquilada,  Xe 

-0.0469 

0.0937 

Condicion  de  vivienda:  propia,  X7 

0.0136 

0.0712 

Alquiler  mensual,  Xg 

-0.7540 

1.0983 

Pagos  de  hipoteca  mensual,  X9 

-0.9809 

0.5162 

Deuda  personal  pagadera  en  una  sola  exhibition,  X10 

-0.0367 

0.0326 

Edad,  Xn 

0.0046 

0.0084 

Edad  elevada  al  cuadrado,  X12 

-0.0001 

0.0001 

Estado  civil,  X13  (1  =  casado) 

0.1760 

0.0501 

Numero  de  hijos,  X14 

0.0398 

0.0358 

(Numero  de  hijos  =  X14)2,  X15 

-0.0036 

0.0072 

Planes  de  compra,  Xi6  (1  =  planeado;  0  en  otro  caso) 

0.1760 

0.0384 

R2  =  0.1336 


Notas:  Todas  las  variables  financieras  estan  expresadas  en  miles  de  dolares. 

Condicion  de  vivienda:  alquilada  (1  si  es  alquilada;  0  en  otro  caso). 

Condicion  de  vivienda:  propia  (1  si  es  propia;  0  en  otro  caso). 

Fuente:  Janet  A.  Fisher,  “An  Analysis  of  Consumer  Good  Expenditure”,  The  Review  of  Economics  and  Statistics,  vol.  64,  num.  1,  tabla  1, 
1962,  p.  67. 

a)  Comente  en  general  sobre  el  ajuste  de  la  ecuacion. 

b)  /.Como  interpreta  el  coeficiente  de  —0.0051  asociado  a  la  variable  de  cuentas  corrien- 
tes?  /.Como  explica  el  signo  negativo  de  esta  variable? 

c)  /.Cual  es  el  razonamiento  de  la  introduction  de  las  variables  edad  elevada  al  cua- 
drado  y  numero  de  hijos  elevado  al  cuadrado?  /.Por  que  hay  signo  negativo  en  ambos 
casos? 


*  "An  Analysis  of  Consumer  Good  Expenditure",  The  Review  of  Economics  and  Statistics,  vol.  64,  num.  1 , 
1962,  pp.  64-71. 
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d)  Si  tiene  valores  de  cero  para  todas  las  variables  excepto  para  la  variable  ingreso, 
encuentre  la  probabilidad  condicional  de  una  familia,  cuyo  ingreso  es  $20  000,  de 
comprar  un  bien  imperecedero. 

e)  Estime  la  probabilidad  condicional  de  poseer  uno  o  mas  bienes  imperecederos  si 
X,  =  $15  000,  X3  =  $3  000,  X4  =  $5  000,  X6  =  0,  X7  =  1,  X8  =  $500,  X9  =  $300, 
X10  =  0,Xn=35,X13  =  1,X14  =  2,X16  =  0. 

15.4.  El  valor  R2  en  la  regresion  de  la  participacion  de  la  fuerza  laboral  en  la  tabla  15.3  es 
0. 175,  relativamente  bajo.  /.Puede  probar  la  significance  estadistica  para  este  valor?  /Que 
prueba  utiliza  y  por  que?  Comente  en  general  sobre  el  valor  del  R2  en  tales  modelos. 

15.5.  Estime  las  probabilidades  de  tener  casa  propia  en  los  diversos  niveles  de  ingreso  en  los 
que  se  basa  la  regresion  (15.7. 1).  Grafique  las  probabilidades  contra  el  ingreso  y  comente 
sobre  la  relacion  resultante. 

*15.6.  En  la  regresion  probit  de  la  tabla  15.1 1  muestre  que  el  intercepto  es  igual  a  —pt x/ax  y  la 
pendiente  es  igual  a  l/erA,  donde  jix  y  ax  son  la  media  y  la  desviacion  estandar  de  X. 

15.7.  Con  base  en  datos  de  54  areas  estadisticas  metropolitanas  estandar  (AEME),  Demaris 
estimo  el  siguiente  modelo  logit  para  explicar  tasas  altas  de  asesinatos  versus  tasas  bajas 
de  asesinatos:* ** 

InO,  =  1.1387  +  0.0014/',+  0.056 1 C,  -  0.4050??, 
ee  =  (0.0009)  (0.0227)  (0.1568) 

donde  O  —  posibilidades  en  favor  de  una  tasa  alta  de  asesinatos,  P  —  tamano  de  la  po- 
blacion  en  1980  en  miles,  C  —  tasa  de  crecimiento  de  la  poblacion  entre  1970  y  1980, 
R  =  cociente  de  lectura,  y  ee,  errores  estandar  asintoticos. 
a)  /.Como  interpretaria  los  diversos  coeficientes? 

b  )  /Que  coeficientes  son  en  lo  individual  estadlsticamente  significativos? 

c )  /Cual  es  el  efecto  de  un  incremento  unitario  en  el  cociente  de  lectura  en  las  posibili¬ 
dades  en  favor  de  una  tasa  mas  alta  de  asesinatos? 

d)  /Cual  es  el  efecto  de  un  incremento  de  un  punto  porcentual  en  la  tasa  de  crecimiento 
poblacional  sobre  las  posibilidades  en  favor  de  una  tasa  mas  alta  de  asesinatos? 

15.8.  Compare  y  comente  sobre  las  regresiones  de  MCO  y  MCP  (15.7.3)  y  (15.7.1). 

Ejercicios  empiricos 

15.9.  De  la  encuesta  sobre  presupuesto  familiar  de  1980  levantada  por  la  Oficina  Central  Ho- 
landesa  de  Estadisticas,  J.  S.  Cramer  obtuvo  el  siguiente  modelo  logit  con  base  en  una 
muestra  de  2  820  familias.  (Los  resultados  se  basan  en  el  metodo  de  maxima  verosimi- 
litud  y  se  dan  despues  de  la  tercera  itcracion.f  El  proposito  del  modelo  logit  fue  deter- 
minar  la  adquisicion  de  un  automovil  como  una  funcion  del  (logaritmo  del)  ingreso.  La 
adquisicion  de  automovil  fue  una  variable  binaria:  Y  —  1  si  una  familia  tenia  un  automo¬ 
vil,  Y  —  0  en  otro  caso. 

L,  =  -2.77231  +  0.347582  In  Ingreso 
t  =  (—3.35)  (4.05) 

X2(l  gl)  =  16.681  (valor  p  =  0.0000) 

donde  Lj  —  e  1  logit  estimado  y  en  donde  In  Ingreso  es  el  logaritmo  del  ingreso.  La  distri- 
bucion  x2  mide  la  bondad  del  ajuste  del  modelo. 


*  Opcional. 

**  Demaris,  op.  cit.,  p.  46. 

*  J .S.  Cramer,  An  Introduction  to  the  Logit  Model  for  Economist,  2a.  ed.,  publicada  y  distribuida  por  Timberlake 
Consultants,  2001,  p.  33.  Estos  resultados  se  reproducen  del  software  estadfstico  PC-CIVE  10,  publicado  por 
Timberlake  Consultants,  p.  51. 
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a)  Interprete  el  modelo  logit  estimado. 

b)  Del  modelo  logit  estimado,  <',061110  obtendrla  la  expresion  para  la  probabilidad  de 
adquirir  un  automovil? 

c)  /.Cult I  es  la  probabilidad  de  que  una  familia  con  un  ingreso  de  $20  000  posea  un  au¬ 
tomovil?,  <',y  para  un  nivel  de  ingreso  de  $25  000?  <,CuaI  es  la  tasa  de  cambio  de  la 
probabilidad  en  un  nivel  de  ingreso  de  $20  000? 

d)  Comente  sobre  la  significance  estadistica  del  modelo  logit  estimado. 

15.10.  Establezca  la  ecuacion  (15.2.8). 

15.11.  En  un  importante  estudio  sobre  las  tasas  de  graduacion  de  todos  los  alumnos  inscritos  en 
educacion  media  superior  y  de  los  inscritos  afroestadounidenses  unicamente,  Bowen  y 
Bok  obtuvieron  los  resultados  de  la  tabla  15.21,  con  base  en  el  modelo  logit.* 


TABLA  15.21  Modelo  de  regresion  logistica  para  predecir  tasas  de  graduacion,  Generacion  entrante  1989 


Todos  los  inscritos 

Solo  afroestadounidenses 

Estimacion  del 

Error 

Razon  de 

Estimacion  del 

Error 

Razon  de 

Variable 

parametro 

estandar 

probabilidad 

parametro 

estandar 

probabilidad 

Intercepto 

0.957 

0.052 

— 

0.455 

0.112 

— 

Mujeres 

0.280 

0.031 

1.323 

0.265 

0.101 

1.303 

Negros 

-0.513 

0.056 

0.599 

Hispanos 

-0.350 

0.080 

0.705 

Asiaticos 

0.122 

0.055 

1.130 

Otra  raza 

-0.330 

0.104 

0.719 

SAT  >  1  299 

0.331 

0.059 

1.393 

0.128 

0.248 

1.137 

SAT  1  200-1  299 

0.253 

0.055 

1.288 

0.232 

0.179 

1.261 

SAT  1  1 00-1  1 99 

0.350 

0.053 

1.420 

0.308 

0.149 

1.361 

SAT  1  000-1  099 

0.192 

0.054 

1.211 

0.141 

0.136 

1.151 

SAT  no  disponible 

-0.330 

0.127 

0.719 

0.048 

0.349 

1.050 

10%  superior  de  la  generacion 

0.342 

0.036 

1.407 

0.315 

0.117 

1.370 

de  escuela  media  superior 
Rango  de  la  generacion  de 

-0.065 

0.046 

0.937 

-0.065 

0.148 

0.937 

escuela  media  superior 
no  disponible 

Nivel  socioeconomico 

0.283 

0.036 

1.327 

0.557 

0.175 

1.746 

alto  (NSE) 

NSE  bajo 

-0.385 

0.079 

0.680 

-0.305 

0.143 

0.737 

NSE  no  disponible 

0.110 

0.050 

1.116 

0.031 

0.172 

1.031 

SEL-1 

1.092 

0.058 

2.979 

0.712 

0.161 

2.038 

SEL-2 

0.193 

0.036 

1.212 

0.280 

0.119 

1.323 

Universidad  para  mujeres 

-0.299 

0.069 

0.742 

0.158 

0.269 

1.171 

Numero  de  observaciones 
-2  log  verosimilitud 

32  524 

2  354 

Restringido 

31  553 

2  667 

No  restringido 

30  160 

2  569 

Ji  cuadrada 

1  393  con  18  gl 

98  con  14  gl 

Notas:  Los  coeficientes  en  negritas  son  significativos  en  el  nivel  de  0.05;  los  otros  coeficientes  no  lo  son.  Las  categorias  omitidas  en  el  modelo  son  blancos,  hombres, 

SAT  <  1  000,  90%  inferior  de  la  generacion  de  escuela  media  superior,  NSE  medio,  SEL-3,  institution  mixta.  Las  tasas  de  graduacion  se  refieren  a  las  tasas  de  graduacion  de  6 
anos  de  educacion  primaria,  segun  se  define  en  las  notas  de  la  tabla  D.3.1  del  apendice.  Las  categorias  de  selectividad  institucional  se  definen  en  las  notas  de  la  tabla  D.3.1  del 
apendice.  Vease  el  apendice  B  para  la  definition  de  nivel  socioeconomico  (NSE). 

SEL-1  =  instituciones  con  una  media  de  calificaciones  combinadas  SAT  de  1  300  o  superior. 

SEL-2  =  instituciones  con  una  media  de  calificaciones  combinadas  SAT  entre  1  150  y  1  299. 

SEL-1  =  instituciones  con  una  media  de  calificaciones  combinadas  SAT  inferior  a  1  150. 

Fuente:  Bowen  y  Bok,  op.  cit.,  p.  381. 


‘William  G.  Bowen  y  Derek  Bok,  The  Shape  of  the  River:  Long  Term  Consequences  of  Considering  Race  in 
College  and  University  Admissions,  Princeton  University  Press,  Princeton,  Nueva  Jersey,  1 998,  p.  381 . 
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a)  <',Quc  conclusion  general  se  deduce  sobre  las  tasas  de  graduation  de  todos  los  inscri- 
tos  y  de  unicamente  los  inscritos  afroestadounidenses? 

b )  La  razon  de probabilidad  es  la  razon  de  dos  probabilidades.  Compare  dos  grupos  de 
todos  los  inscritos,  uno  con  una  calificacion  SAT  mayor  que  1  299  y  otro  con  una  cali¬ 
ficacion  SAT  menor  que  1  000  (la  categoria  base).  La  razon  de  probabilidad  de  1.393 
significa  que  las  posibilidades  en  favor  de  que  los  inscritos  en  la  primera  categoria 
terminen  sus  estudios  universitarios  son  39%  superiores  a  las  de  los  que  estan  en  la 
otra  categoria.  ^Las  diversas  razones  de  probabilidad  que  se  muestran  en  la  tabla  estan 
de  acuerdo  con  las  expectativas  a  priori ? 

c)  ^Que  puede  decir  respecto  de  la  significance  estadistica  de  los  parametros  estima- 
dos?  iY  respecto  de  la  importancia  global  del  modelo  estimado? 

15.12.  En  el  modelo  probit  (tabla  15. 1 1),  la  perturbation  u,  tiene  esta  varianza: 

2  ftU-ft) 

-v,/;2 

donde  f  es  la  funcion  de  densidad  normal  estandar  evaluada  en  F  ](P,). 

a)  Con  la  varianza  anterior  de  ^como  transformaria  el  modelo  de  la  tabla  15.10  para 
que  el  termino  de  error  resultante  sea  homoscedastico? 

b)  Con  la  informacion  de  la  tabla  15.10,  muestre  la  informacion  transformada. 

c)  Estime  el  modelo  probit  con  base  en  los  datos  transformados  y  compare  los  resultados 
con  los  basados  en  los  datos  originales. 

15.13.  Como  R2  en  calidad  de  medida  de  bondad  de  ajuste  no  es  particularmente  apropiada 
para  los  modelos  de  variable  dependiente  dicotoma,  una  alternativa  que  se  propone  es  la 
prueba  x2  descrita  en  seguida: 

2  =  A  N,(  P,  -  P*)2 

x  hw-p?) 

donde  Nj  —  numero  de  observaciones  en  la  i-esima  celda 

P,  —  probabilidad  real  de  ocurrencia  del  suceso  (—  «,/7V,) 

P*  —  probabilidad  estimada 

G  —  numero  de  celdas  (es  decir,  el  numero  de  niveles  en  el  cual  se  mide  Xt,  por 
ejemplo,  10  en  la  tabla  15.4) 

Puede  demostrarse  que,  para  muestras  grandes,  /2  esta  distribuida  de  acuerdo  con  la  dis- 
tribucion  x2  con  ( G  —  k)  gl,  donde  A'es  el  numero  de  parametros  en  el  modelo  por  estimar 
(k  <  G). 

Aplique  la  prueba  anterior  x2  a  la  regresion  (15.7.1),  comente  la  bondad  de  ajuste 
resultante  y  compare  con  el  valor  reportado  de  la  R2. 

15.14.  La  tabla  15.22  presenta  datos  sobre  los  resultados  de  dispersar  rotenona  en  diferentes 
concentraciones  sobre  poblaciones  de  aproximadamente  cincuenta  individuos  del  pulgon 
del  crisantemo.  Elabore  un  modelo  adecuado  para  expresar  la  probabilidad  de  mortalidad 
como  una  funcion  del  logaritmo  de  X,  el  logaritmo  de  la  dosificacion,  y  comente  los  re¬ 
sultados.  Tambien  calcule  la  prueba  x2  del  ajuste  estudiado  en  el  ejercicio  15.13. 

15.15.  Trece  aspirantes  a  un  programa  de  posgrado  obtuvieron  las  calificaciones  cuantitativa 
y  verbal  en  el  examen  GRE  que  se  presentan  en  la  tabla  15.23.  Seis  estudiantes  fueron 
admitidos  en  el  programa. 

a)  Con  el  modelo  MLP,  prediga  la  probabilidad  de  admision  al  programa  con  base  en  las 
calificaciones  cuantitativas  y  verbales  del  GRE. 

b )  ^Es  un  modelo  satisfactorio?  De  no  ser  asi,  ^que  alternativa(s)  ofrece? 
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TABLA  15.22 

Estudio  de  toxicidad  de 
rotenona  en  poblaciones 
de  pulgon  del  crisantemo 

Fuente:  D.  J.  Fennet,  Probit 
Analysis ,  Cambridge  University 
Press,  Londres,  1964. 


Concentration, 
miligramos  por  litro 

Total 

Mortalidad, 

X 

log  (X) 

N; 

«; 

Pi  =  rii/N, 

2.6 

0.4150 

50 

6 

0.120 

3.8 

0.5797 

48 

16 

0.333 

5.1 

0.7076 

46 

24 

0.522 

7.7 

0.8865 

49 

42 

0.857 

10.2 

1.0086 

50 

44 

0.880 

TABLA  15.23 
Calificaciones  del 

Calificaciones  de  examen 

de  aptitud  GRE 

Admitido  al 

programa  de  posgrado 

examen  GRE 

Num.  de  estudiante 

Cuantitativo,  Q 

Verbal,  V 

(Si  =  1,  No  =  0) 

Fuente:  Donald  F.  Morrison, 

1 

760 

550 

1 

Applied  Linear  Statistical  Me¬ 

600 

350 

0 

thods,  Prentice-Hall,  Englewood 

z. 

Cliffs,  Nueva  Jersey,  1983,  p.  279 

3 

720 

320 

0 

(adaptada). 

4 

710 

630 

1 

5 

530 

430 

0 

6 

650 

570 

0 

7 

800 

500 

1 

8 

650 

680 

1 

9 

520 

660 

0 

10 

800 

250 

0 

11 

670 

480 

0 

12 

670 

520 

1 

13 

780 

710 

1 

15.16.  Para  estudiar  la  eficacia  de  un  cupon  de  descuento  sobre  el  precio  de  un  paquete  de  seis 
unidades  de  un  refresco,  Douglas  Montgomery  y  Elizabeth  Peck  recopilaron  los  datos 
que  aparecen  en  la  tabla  15.24.  Se  asigno  aleatoriamente  una  muestra  de  5  500  consumi- 
dores  a  las  once  categorlas  de  descuento  que  aparecen  en  la  tabla,  500  por  categorla.  La 
variable  de  respuesta  es  si  los  consumidores  canjearon  el  cupon  en  un  lapso  de  un  mes,  o 
si  no  lo  hicieron. 

a)  Vea  si  el  modelo  logit  se  ajusta  a  la  information;  considere  la  tasa  de  canje  como 
variable  dependiente  y  el  precio  de  descuento  como  variable  explicativa. 

b)  Vea  si  el  modelo  probit  opera  tan  bien  como  el  modelo  logit. 


TABLA  15.24 

Precio  del  refresco  con  el 
cupon  de  descuento 

Fuente:  Douglas  C.  Montgomery 
y  Elizabeth  A.  Peck,  Introduction 
to  Linear  Regression  Analysis, 
John  Wiley  &  Sons,  Nueva 
York,  1982,  p.  243  (la  notation 
cambio). 


Precio  con  descuento 

Tamano  de  la  muestra 

Numero  de  cupones  canjeados 

V,  <t 

Ni 

ni 

5 

500 

100 

7 

500 

122 

9 

500 

147 

11 

500 

176 

13 

500 

211 

15 

500 

244 

17 

500 

277 

19 

500 

310 

21 

500 

343 

23 

500 

372 

25 

500 

391 
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c)  /.Cual  es  la  tasa  de  canje  proyectada  si  la  tasa  de  descuento  de  precio  fue  de  17  centa¬ 
vos? 

d)  Estime  el  precio  de  descuento  por  el  cual  se  canjeara  70%  de  los  cupones. 

15.17.  Para  averiguar  quien  tiene  una  cuenta  bancaria  (corriente,  de  ahorro,  etc.,)  y  quien  no  la 
tiene,  John  Caskey  y  Andrew  Peterson  estimaron  un  modelo  probit  para  los  anos  1977  y 
1989,  con  informacion  sobre  las  familias  en  Estados  Unidos.  Los  resultados  estan  en  la 
tabla  15.25.  Los  valores  de  los  coeficientes  de  pendiente  en  la  tabla  miden  el  efecto  de 
un  cambio  unitario  en  una  regresora  sobre  la  probabilidad  de  que  una  familia  tenga  una 
cuenta  bancaria,  y  con  el  calculo  estos  efectos  marginales  en  los  valores  medios  de  las 
regresoras  del  modelo. 

a)  Para  1977,  (',cual  es  el  efecto  del  estado  civil  sobre  la  propiedad  de  una  cuenta  banca¬ 
ria?,  para  1989?  /,Tienen  sentido  economico  estos  resultados? 

b)  /,Por  que  es  negativo  el  coeficiente  asociado  a  la  variable  minoria  para  1977  al  igual 
que  para  1989? 

c)  /.Como  explica  el  signo  negativo  de  la  variable  numero  de  hijos? 

d)  /Que  indica  el  estadistico  ji  cuadrada  dado  en  la  tabla?  (Sugerencia:  Consulte  el  ejer- 
cicio  15.13.) 


TABLA  15.25 


Regresiones  probit  donde  la  variable  dependiente  es  la  posesion  de  una  cuenta  bancaria 


Datos  de  1977 


Datos  de  1989 


Coeficientes 


Constante  -1 .06 

(3.3) * 

Ingreso  (miles  de  dolares  de  1991)  0.030 

(6.9) 

Casado  0.127 

(0.8) 

Numero  de  hijos  -0.131 

(3.6) 

Edad  del  jefe  de  familia  (JF)  0.006 

0-7) 

Educacion  de  JF  0.121 

(7.4) 

JF  hombre  -0.078 

(0.5) 

Minoria  -0.750 

(6.8) 

Empleado  0.186 

0-6) 

Propietario  de  vivienda  0.520 

(4.7) 

Log  verosimilitud  -430.7 

Estadistico  ji  cuadrada  408 

(HO:  Todos  los  coeficientes,  excepto 
la  constante,  son  iguales  a  cero) 

Numero  de  observaciones  2  025 

Porcentaje  de  la  muestra  con 

predicciones  correctas  91 


Pendiente  impllcita 

Coeficientes 

Pendiente  impllcita 

-2.20 

0.002 

(6.8)* 

0.025 

0.002 

0.008 

(6.8) 

0.235 

0.023 

-0.009 

(1.7) 

-0.084 

-0.008 

0.0004 

(2.0) 

0.021 

0.002 

0.008 

(6.3) 

0.128 

0.012 

-0.005 

(7.7) 

-0.144 

-0.011 

-0.050 

(0.9) 

-0.600 

-0.058 

0.012 

(6.5) 

0.402 

0.039 

0.035 

(3.6) 

0.522 

0.051 

(5.3) 

-526.0 

602 


2  091 
90 


*  Las  cifras  entre  parentesis  son  estadisticos  t. 

Fuente:  John  P.  Caskey  y  Andrew  Peterson,  “Who  Has  a  Bank  Account  and  Who  Doesn’t:  1977  and  1989”,  Research  Working  Paper  93-10,  Federal  Reserve  Bank  of  Kansas 
City,  octubre  de  1993. 
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15.18.  Estudio  Monte  Carlo.  Como  ayuda  para  entender  el  modelo  probit,  William  Becker  y 
Donald  Waldman  supusieron  lo  siguiente:* 

E(Y  \X)  =  -1+3X 

Asi,  con  Yt  —  —  1  +  3X  +  e„  donde  e,  se  supone  normal  estandar  (es  decir,  media  cero 
y  varianza  unitaria),  generaron  una  muestra  de  35  observaciones,  como  se  muestra  en  la 
tabla  15.26. 

a)  De  la  informacion  sobre  Y  y  A  de  esta  tabla,  (',pucdc  estimar  un  MLP?  Recuerde  que 
la  verdadera  E(Y\  X)  =  —  1  +  3X. 

b )  Con  X  —  0.48,  estime  E(Y  |  X )  =  0.48)  y  comparela  con  la  verdadera  E(Y  |  X)  — 
0.48).  Note  que  X  —  0.48. 

c)  Con  la  informacion  sobre  Y*  y  Xde  la  tabla  15.26,  estime  un  modelo  probit.  Utilice 
el  paquete  estadistico  que  desee.  El  modelo  probit  estimado  por  los  autores  es  el  si¬ 
guiente: 

Y*  =  -0.969  +  2.764X; 

Encuentre  la  P(Y*  —  1 1  X—  0.48),  es  decir,  P(Y\  >  0 1 X—  0.48).  Vea  si  la  respuesta 
coincide  con  la  respuesta  de  0.64  de  los  autores. 

d )  La  desviacion  estandar  muestral  de  los  valores  X de  la  tabla  1 5 .26  es  0.3 1 .  <,Cual  es  el 
cambio  proyectado  en  la  probabilidad  si  X  es  una  desviacion  estandar  por  encima  del 
valor  de  la  media,  es  decir,  cual  es  P(Y*  =  1 1  X=  0.79)?  La  respuesta  de  los  autores 
es  0.25. 


TABLA  15.26 

Conjunto  de  datos  hipo- 
teticos  generados  por  el 
modelo  F=  — 1  +  3X  + 
ey  F*  =  1,  si  Y>  0 

Fuente:  William  E.  Becker  y  Do¬ 
nald  M.  Waldman,  “A  Graphical 
Interpretation  of  Probit  Coeffi¬ 
cients”,  Journal  of  Economic 
Education,  otono  de  1989,  tabla 
l,p.  373. 


Y 

Y* 

X 

Y 

Y* 

X 

-0.3786 

0 

0.29 

-0.3753 

0 

0.56 

1.1974 

1 

0.59 

1.9701 

1 

0.61 

-0.4648 

0 

0.14 

-0.4054 

0 

0.17 

1.1400 

1 

0.81 

2.4416 

1 

0.89 

0.3188 

1 

0.35 

0.8150 

1 

0.65 

2.2013 

1 

1.00 

-0.1223 

0 

0.23 

2.4473 

1 

0.80 

0.1428 

1 

0.26 

0.1153 

1 

0.40 

-0.6681 

0 

0.64 

0.4110 

1 

0.07 

1.8286 

1 

0.67 

2.6950 

1 

0.87 

-0.6459 

0 

0.26 

2.2009 

1 

0.98 

2.9784 

1 

0.63 

0.6389 

1 

0.28 

-2.3326 

0 

0.09 

4.3192 

1 

0.99 

0.8056 

1 

0.54 

-1.9906 

0 

0.04 

-0.8983 

0 

0.74 

-0.9021 

0 

0.37 

-0.2355 

0 

0.17 

0.9433 

1 

0.94 

1.1429 

1 

0.57 

-3.2235 

0 

0.04 

-0.2965 

0 

0.18 

0.1690 

1 

0.07 

‘William  E.  Becker  y  Donald  M.  Waldman,  "A  Graphical  Interpretation  of  Probit  Coefficients",  journal  of  Eco¬ 
nomic  Education,  vol.  20,  num.  4,  otono  de  1989,  pp.  371-378. 
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15.19.  La  tabla  15.27  del  sitio  web  del  libro  de  texto  presenta  datos  de  2  000  mujeres  en  relation 
con  el  trabajo  (1  =  la  mujer  trabaja,  0  =  no  trabaja),  edad,  estado  civil  (1  =  casada,  0  = 
otros),  numero  de  hijos  y  nivel  de  escolaridad  (numero  de  anos  de  escolaridad).  De  un 
total  de  2  000  mujeres,  se  registraron  657  que  no  perciben  salario. 

a)  Con  estos  datos,  estime  el  modelo  lineal  de  probabilidad  (MLP). 

b )  Con  los  mismos  datos,  estime  un  modelo  logit  y  obtenga  los  efectos  marginales  de  las 
diferentes  variables. 

c)  Repita  b)  con  el  modelo  probit. 

d)  ^Que  modelo  elegiria?  ^Por  que? 

15.20.  Para  el  ejemplo  de  los  fumadores  analizado  en  el  texto  (section  15.10),  descargue  los 
datos  del  sitio  web  del  libro  de  texto  que  se  presentan  en  la  tabla  15.28.  Vea  si  el  producto 
de  escolaridad  e  ingreso  (es  decir,  el  efecto  de  la  interaction)  tiene  algiin  efecto  sobre  la 
probabilidad  de  llegar  a  ser  fumador. 

15.21.  Descargue  el  conjunto  de  datos  Benign,  que  aparece  en  la  tabla  15.29,  del  sitio  web  del 
libro  de  texto.  La  variable  cancer  es  dicotoma,  donde  1  =  tuvo  cancer  mamario  y  0  =  no 
tuvo  cancer  mamario.*  Use  las  variables  edad  (—  edad  del  sujeto),  HIGD  (=  grado  mas 
alto  de  education  terminado),  CHK  (=  0  si  el  sujeto  no  se  realizo  examenes  medicos  con 
regularidad  y  =  1  si  el  sujeto  se  realizo  examenes  medicos  con  regularidad),  AGPI  (= 
edad  cuando  se  embarazo  por  primera  vez),  abortos  espontaneos  (  =  numero  de  abortos 
espontaneos)  y  peso  (—  peso  del  sujeto)  y  ejecute  una  regresion  logistica  para  concluir  si 
estas  variables  son  estadisticamente  utiles  para  pronosticar  si  una  mujer  se  enfermara  de 
cancer  mamario  o  no. 


Apendice  1  5A 


15A.1  Estimacion  de  maxima  verosimilitud  de  los 

modelos  probit  y  logit  para  datos  individuales 
_ (no  agrupados)t _ 


Como  en  el  texto,  suponga  que  nos  interesa  estimar  la  probabilidad  de  que  un  individuo  sea  propietario 
de  una  casa,  dado  el  ingreso  X  de  dicha  persona.  Suponemos  que  esta  probabilidad  se  expresa  mediante  la 
funcion  logistica  (15.5.2),  que  se  reproduce  a  continuation. 

P'  =  i  +  e-ifh+PiX,)  t1) 

En  realidad  no  observamos  Pi,  sino  solo  el  resultado  Y  =  1,  si  un  individuo  es  propietario  de  una  casa,  y 
Y  =  0  si  no  lo  es. 

Como  cada  Yt  es  una  variable  aleatoria  Bernoulli,  se  expresa 

Pr(L  =  1)  =  Pi  (2) 

Pr(L  =  0)  =  (1  -  Pi)  (3) 


*  Se  proporcionan  datos  sobre  50  mujeres  a  quienes  se  les  diagnostico  enfermedad  mamaria  benigna  y  1 50 
controles  que  corresponden  a  la  edad,  con  tres  controles  por  caso.  Los  entrevistadores  profesionales  admi- 
nistraron  un  cuestionario  estructurado  estandarizado  para  recopilar  information  de  cada  sujeto  del  estudio 
(vease  Pastides  et  at.,  1 983,  y  Pastides  et  a!.,  1 985). 

t  El  siguiente  analisis  se  basa  en  gran  medida  en  John  Neter,  Michael  H.  Kutner,  Christopher  J.  Nachsteim  y 
William  Wasserman,  Applied  Linear  Statistical  Models,  4a.  ed.,  Irwin,  1996,  pp.  573-574. 
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Suponga  que  tenemos  una  muestra  aleatoria  de  n  observaciones.  Sea  la  funcion  /(Yj)  tal  que  denote  la 
probabilidad  de  que  Yj  =  1  o  0;  la  probabilidad  conjunta  de  observar  los  n  valores  Y,  es  decir,/(Fi,  Y2,  .  .  .  , 
Y„),  se  expresa  como: 


f(Yu  F2,  ...,  F„)  =  n/«>-n  ^(i  -Pi)1 


-Yi 


(4) 


donde  n  es  el  operador  producto;  observe  que  escribimos  la  funcion  de  densidad  de  probabilidades  con- 
juntas  como  producto  de  las  funciones  de  densidad  individuales,  pues  cada  K,  se  obtiene  de  manera  inde- 
pendiente  y  cada  Yj  tiene  la  misma  funcion  de  densidad  (logistical.  La  probabilidad  conjunta  dada  en  la 
ecuacion  (4)  se  conoce  como  funcion  de  verosimilitud  (FV). 

Es  un  poco  diflcil  manipular  la  ecuacion  (4).  Pero  si  tomamos  su  logaritmo  natural,  obtenemos  lo  que  se 
conoce  como  funcion  log  de  verosimilitud  (FLY): 


ln/(7i,  Y2,...,Y„)  = 


n 

^][y,lnP,+(l-F,)ln(l-P,)] 

1 

n 


E 

l 

n 

E 

i 


[Yj  In  Pj  -  Yj  In  ( 1 


—  Pi)  In ( 1 


+  Elnd- 

1 


-  P,)) 


Pi) 


(5) 


De  (1)  resulta  facil  verificar  que 


asi  como 


(1  P i')  1-| -ePi+fhXt 

111  (y^t)  =  &  +  h-Xi 


(6) 

(7) 


Mediante  (6)  y  (7)  expresamos  la  FLV(5)  como: 

n  n 

In  f(Y\,  Y2, . . F„)  =  J2  Yi(P  i  +  h  Xi)  ~  22  In  [l  +  (8) 

l  l  L  J 

Como  se  observa  de  (8),  la  funcion  log  de  verosimilitud  es  una  funcion  de  los  parametros  Pi  y  p2,  pues  se 
conocen  las  Xt. 

En  MV,  el  objetivo  consiste  en  maximizar  la  FV  (o  la  FLV),  es  decir,  en  obtener  los  valores  de  los  para¬ 
metros  desconocidos  de  forma  que  la  probabilidad  de  observar  las  F  dadas  sea  tan  grande  (maximo)  como 
sea  posible.  Con  este  proposito,  diferenciamos  (8)  parcialmente  respecto  de  cada  incognita,  igualamos  las 
expresiones  resultantes  a  cero  y  resolvemos  las  expresiones  as!  obtenidas.  Luego  aplicamos  la  condicion 
de  maximizacion  de  segundo  orden  a  fin  de  verificar  que  los  valores  de  los  parametros  obtenidos  en  verdad 
maximicen  la  FV 

Por  tanto,  hay  que  diferenciar  (8)  respecto  de  pi  y  p2,  y  proceder  como  se  indico.  Como  puede  obser¬ 
var  de  inmediato,  las  expresiones  resultantes  se  convierten  en  no  lineales  en  grado  sumo  respecto  de  los 
parametros,  por  lo  que  no  se  pueden  obtener  soluciones  expllcitas.  Esta  es  la  razon  por  la  que  tendremos 
que  utilizar  uno  de  los  metodos  de  estimacion  no  lineal  analizados  en  el  capltulo  anterior  con  el  objeto  de 
obtener  soluciones  numericas.  Una  vez  que  se  obtienen  los  valores  numericos  de  Pi  y  p2,  la  ecuacion  (1)  se 
estima  con  facilidad. 

El  procedimiento  de  MV  para  el  modelo  probit  es  semejante  al  del  modelo  logit,  excepto  que  en  (1) 
utilizamos  la  FDA  normal  en  vez  de  la  FDA  loglstica.  La  expresion  resultante  se  complica  un  poco,  pero  la 
idea  general  es  la  misma.  As!  que  no  profundizaremos  mas. 


Capitulo 


Modelos  de  regresion 
con  datos  de  panel 

En  el  capitulo  1  analizamos  con  brevedad  los  tipos  de  datos  que,  por  lo  general,  estan  disponibles 
para  el  analisis  empirico,  a  saber:  de  series  de  tiempo,  de  corte  transversal  y  de  panel.  En  los 
datos  de  series  de  tiempo  se  observan  los  valores  de  una  o  mas  variables  durante  un  periodo  (por 
ejemplo,  el  P1B  durante  varios  trimestres  o  varios  anos).  En  los  datos  de  corte  transversal,  se  re- 
copilan  valores  de  una  o  mas  variables  para  varias  unidades  muestrales,  o  entidades,  en  el  mismo 
punto  en  el  tiempo  (por  ejemplo,  la  tasa  de  criminalidad  en  50  estados  de  Estados  Unidos  en  un 
ano  determinado).  En  los  datos  de  panel,  la  misma  unidad  de  corte  transversal  (una  familia,  una 
empresa  o  un  estado)  se  estudia  a  lo  largo  del  tiempo.  En  resumen,  en  los  datos  de  panel  esta  la 
dimension  del  espacio  y  la  del  tiempo. 

Ya  vimos  un  ejemplo  de  lo  anterior  en  la  tabla  1.1,  la  cual  suministra  datos  sobre  los  hue- 
vos  producidos  y  sus  precios  en  50  estados  de  Estados  Unidos  en  1990  y  1991.  En  cualquier 
ano  dado,  los  datos  de  los  huevos  y  su  precio  representan  una  muestra  transversal.  Para  un 
estado  dado  existen  dos  observaciones  de  series  de  tiempo:  para  los  huevos  y  para  su  precio.  En 
consecuencia,  se  tienen  en  total  100  observaciones  (agrupadas)  sobre  los  huevos  producidos  y 
sus  precios. 

En  la  tabla  1.2  presentamos  otro  ejemplo  de  los  datos  de  panel.  Esta  tabla  contiene  datos  sobre 
inversion,  valor  de  la  empresa  y  capital  accionario  de  cuatro  empresas  de  1935  a  1954.  Los  datos 
de  cada  empresa  correspondientes  al  periodo  1935-1954  constituyen  datos  de  series  de  tiempo, 
con  20  observaciones;  los  datos  de  las  cuatro  empresas  para  un  ano  determinado  son  datos  de 
corte  transversal,  con  solo  cuatro  observaciones;  y  los  datos  de  todas  las  empresas  para  todos  los 
anos  son  datos  de  panel,  con  un  total  de  80  observaciones. 

Existen  otros  nombres  para  los  datos  de  panel,  como  datos  agrupados  (agrupamiento  de 
observaciones  de  series  de  tiempo  y  de  corte  transversal);  combinacion  de  datos  de  series 
de  tiempo  y  de  corte  transversal;  datos  de  micropanel;  datos  longitudinales  (un  estudio  a  lo 
largo  del  tiempo  de  una  variable  o  grupo  de  sujetos);  analisis  de  historia  de  sucesos  (por  ejem¬ 
plo,  el  estudio  del  movimiento  de  sujetos  a  lo  largo  del  tiempo  y  a  traves  de  sucesivos  estados  o 
condiciones);  analisis  de  generaciones  (por  ejemplo,  dar  seguimiento  a  la  trayectoria  profesional 
de  los  egresados  en  1965  de  una  escuela  de  administration).  Si  bien  hay  variaciones  sutiles,  todos 
estos  nombres  en  esencia  tienen  una  connotation  de  movimiento  de  unidades  de  corte  transversal 
a  lo  largo  del  tiempo.  Por  consiguiente,  de  forma  generica  aplicaremos  el  termino  datos  de  panel 
para  incluir  uno  o  mas  de  tales  terminos.  Asimismo,  denominaremos  modelos  de  regresion  con 
datos  de  panel  a  los  modelos  de  regresion  que  se  basan  en  tales  datos. 

Cada  vez  son  mas  comunes  los  datos  de  panel  en  la  investigacion  economica.  Algunos  conjun- 
tos  de  datos  de  panel  bien  conocidos  son: 

1 .  El  estudio  de  panel  de  la  dinamica  del  ingreso  (EPDI)  llevado  a  cabo  por  el  Instituto  de 
Investigacion  Social  de  la  Universidad  de  Michigan.  Iniciado  en  1968,  cada  ano  el  Instituto 
recopila  datos  sobre  casi  5  000  familias  respecto  de  diversas  variables  socioeconomicas  y 
demograficas. 
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2.  La  Oficina  del  Censo,  perteneciente  al  Departamento  de  Comercio  de  Estados  Unidos,  lleva  a 
cabo  un  estudio  similar  al  EPDI,  llamado  Estudio  del  ingreso  y  participacion  en  programas 
(EIPP).  Cuatro  veces  al  ano  se  entrevista  a  los  participantes  para  conocer  su  situacion  econo¬ 
mica. 

3.  El  panel  aleman  socioeconomico  (PALSOE)  estudio  a  1  761  individuos  cada  ano  entre  1984 
y  2002.  Se  recopilo  information  sobre  ano  de  nacimiento,  sexo,  satisfaction  con  la  vida,  es- 
tado  civil,  percepciones  laborales  individuates  y  horas  de  trabajo  anuales  de  cada  sujeto  del 
estudio  de  1984  a  2002. 

Asimismo,  existen  muchos  otros  estudios  que  llevan  a  cabo  varias  oficinas  gubernamentales, 
como: 

Estudio  de  familias,  ingresos  y  dinamica  del  trabajo  en  Australia  (HILDA,  por  sus  siglas  en 
ingles). 

Estudio  de  panel  de  familias  britanicas  (BHPS,  por  sus  siglas  en  ingles). 

Estudio  de  panel  de  mano  de  obra  e  ingreso  en  Corea  (KLIPS,  por  sus  siglas  en  ingles). 

Desde  el  principio  conviene  hacer  una  advertencia:  el  tema  de  la  regresion  con  datos  de  panel 
es  muy  amplio,  y  parte  de  las  matematicas  y  las  estadisticas  que  implica  son  muy  complejas.  Solo 
pretendemos  abarcar  algunos  aspectos  esenciales  de  los  modelos  de  regresion  con  datos  de  panel, 
y  dejamos  los  detalles  para  consulta  en  las  references. 1  Pero  advertimos  que  algunas  referencias 
son  excesivamente  tecnicas.  Por  fortuna,  existen  paquetes  de  software  accesibles,  como  LIMDEP, 
PC-GIVE,  SAS,  STATA,  SHAZAM  y  EViews,  entre  otros;  estos  programas  facilitan  en  gran  me- 
dida  la  tarea  de  implementar  realmente  las  regresiones  con  datos  de  panel. 


16.1  ^Por  que  datos  de  panel? 


((Cuales  son  las  ventajas  de  los  datos  de  panel  respecto  de  los  datos  de  corte  transversal  o  de  se¬ 
ries  de  tiempo?  Baltagi  menciona  las  siguientes  ventajas  de  los  datos  de  panel:2 

1.  Como  los  datos  de  panel  se  refieren  a  individuos,  empresas,  estados,  paises,  etc.,  a  lo  largo  del 
tiempo,  lo  mas  seguro  es  la  presencia  de  heterogeneidad  en  estas  unidades.  Las  tecnicas  de 
estimation  de  datos  de  panel  toman  en  cuenta  de  manera  explicita  tal  heterogeneidad,  al  per- 
mitir  la  existencia  de  variables  especificas  por  sujeto,  como  veremos  en  breve.  Utilizamos  el 
termino  sujeto  en  un  sentido  generico  para  incluir  microunidades  como  individuos,  empresas, 
estados  y  paises. 

2.  Al  combinar  las  series  de  tiempo  de  las  observaciones  de  corte  transversal,  los  datos  de  panel 
proporcionan  “una  mayor  cantidad  de  datos  informativos,  mas  variabilidad,  menos  colineali- 
dad  entre  variables,  mas  grados  de  libertad  y  una  mayor  eficiencia”. 

3.  Al  estudiar  las  observaciones  en  unidades  de  corte  transversal  repetidas,  los  datos  de  panel 
resultan  mas  adecuados  para  estudiar  la  dinamica  del  cambio.  Los  conjuntos  de  datos  respecto 
del  desempleo,  la  rotacion  en  el  trabajo  y  la  movilidad  laboral  se  estudian  mejor  con  datos  de 
panel. 

4.  Los  datos  de  panel  detectan  y  miden  mejor  los  efectos  que  sencillamente  ni  siquiera  se  obser- 
van  en  datos  puramente  de  corte  transversal  o  de  series  de  tiempo.  Por  ejemplo,  los  efectos 


1  Algunas  referencias  son  C.  Chamberlain,  "Panel  Data",  en  Handbook  of  Econometrics,  vol.  II;  Z.  Griliches 
y  M.D.  Intriligator  (eds.),  North-Holland,  1 984,  cap.  22;  C.  Hsiao,  Analysis  of  Panel  Data,  Cambridge 
University  Press,  1 986;  G.C.  Judge,  R.C.  Hill,  W.E.  Griffiths,  H.  Lutkepohl  y  T.C.  Lee,  Introduction  to  the  Theory 
and  Practice  of  Econometrics,  2a.  ed.,  John  Wiley  &  Sons,  Nueva  York,  1 985,  cap.  1 1 ;  W.H.  Greene,  Econome¬ 
tric  Analysis,  6a.  ed.,  Prentice-Hall,  Englewood  Cliffs,  Nueva  Jersey,  2008,  cap.  19;  Badi  H. 

Baltagi,  Econometric  Analysis  of  Panel  Data,  John  Wiley  and  Sons,  Nueva  York,  1 995,  y  J.M.  Wooldridge, 
Econometric  Analysis  of  Cross  Section  and  Panel  Data,  MIT  Press,  Cambridge,  Massachusetts,  1 999.  Para  un 
analisis  detallado  del  tema  con  aplicaciones  empfricas,  vease  Edward  W.  Frees,  Longitudinal  and  Panel  Data: 
Analysis  and  Applications  in  the  Social  Sciences,  Cambridge  University  Press,  Nueva  York,  2004. 

2  Baltagi,  op.  cit.,  pp.  3-6. 


Capftulo  1  6  Modelos  de  regresion  con  datos  de panel  593 


de  las  leyes  concernientes  al  salario  mlnirno  sobre  el  empleo  y  los  salarios  se  estudian  mejor 
si  incluimos  oleadas  sucesivas  de  incrementos  a  los  salarios  minimos  en  los  salarios  minimos 
estatales  y/o  federales. 

5.  Los  datos  de  panel  permiten  estudiar  modelos  de  comportamiento  mas  complejos.  Por  ejem- 
plo,  fenomenos  como  las  economias  de  escala  y  el  cambio  tecnologico  son  mas  maniobra- 
bles  con  los  datos  de  panel  que  con  los  datos  puramente  de  corte  transversal  o  de  series  de 
tiempo. 

6.  Al  hacer  disponibles  datos  para  varios  miles  de  unidades,  los  datos  de  panel  reducen  el  sesgo 
posible  si  se  agregan  individuos  o  empresas  en  conjuntos  numerosos. 

En  resumen,  los  datos  de  panel  enriquecen  el  analisis  empirico  de  manera  que  no  seria  posible 
con  solo  datos  de  corte  transversal  o  de  series  de  tiempo.  Con  lo  anterior  no  sugerimos  que  se 
eliminan  todos  los  problemas  con  los  modelos  de  datos  de  panel.  Analizaremos  dichos  problemas 
despues  de  ver  algo  de  teoria  y  analizar  algunos  ejemplos. 


16.2 


Datos  de  panel:  un  ejemplo  ilustrativo 


Con  el  objeto  de  preparar  el  terreno,  presentemos  un  ejemplo  concreto.  Considere  los  datos  de  la 
tabla  16.1  del  sitio  web  del  libro  de  texto,  los  cuales  se  recopilaron  originalmente  por  el  profesor 
Moshe  Kim  y  se  tomaron  del  libro  de  William  Greene.3  Los  datos  analizan  los  costos  de  seis  11- 
neas  de  aviacion  comercial  de  1970  a  1984,  para  un  total  de  90  observaciones  de  datos  de  panel. 

Las  variables  se  definen  como  sigue:  /  =  identificacion  de  la  aerolinea;  T  =  identificacion 
del  ano;  Q  —  produccion,  como  ingresos  por  milla  por  pasajero,  un  indice;  C  —  costo  total,  en 
1  000  dolares;  PF  —  precio  del  combustible;  y  LF  =  factor  de  carga,  la  utilizacion  promedio  de 
la  capacidad  de  la  flotilla. 

Suponga  que  deseamos  averiguar  como  se  comporta  el  costo  total  (C)  en  relacion  con  la 
produccion  (Q),  el  precio  del  combustible  (PF)  y  el  factor  de  carga  (LF).  En  resumen,  deseamos 
estimar  la  funcion  de  costos  de  la  aerolinea. 

('.Como  estimamos  esta  funcion?  Desde  luego,  podemos  estimar  la  funcion  de  costo  de  cada 
aerolinea  con  los  datos  de  1970  a  1984  (es  decir,  una  regresion  de  series  de  tiempo).  Esto  se  logra 
con  el  procedimiento  acostumbrado  de  minimos  cuadrados  ordinarios  (MCO).  En  total  habra  seis 
funciones  de  costo,  una  para  cada  aerolinea.  Sin  embargo,  olvidariamos  asi  la  informacion  sobre 
las  otras  aerolineas  que  operan  en  el  mismo  entorno  (de  regulacion). 

Tambien  podemos  estimar  una  funcion  de  costo  de  corte  transversal  (es  decir,  una  regresion 
de  corte  transversal).  En  total  habra  15  regresiones  de  corte  transversal,  una  por  ano.  Pero  esto  no 
tendria  mucho  sentido  en  el  presente  contexto,  pues  solo  se  tienen  seis  observaciones  por  ano  y 
hay  tres  variables  explicativas  (mas  el  termino  del  intercepto);  habra  muy  pocos  grados  de  libertad 
para  realizar  un  analisis  significativo.  Ademas,  no  se  “explota”  el  caracter  de  panel  de  los  datos. 

Por  cierto,  los  datos  de  panel  del  ejemplo  se  denominan  panel  balanceado;  se  dice  que  un 
panel  es  balanceado  si  cada  sujeto  (empresa,  individuos,  etc.)  tiene  el  mismo  numero  de  obser¬ 
vaciones.  Si  cada  entidad  tiene  un  numero  diferente  de  observaciones,  se  tiene  un  panel  des- 
balanceado.  En  la  mayor  parte  de  este  capitulo  trabajaremos  con  paneles  balanceados.  En  la 
bibliografia  de  datos  de  panel  tambien  se  mencionan  los  terminos  panel  corto  y  panel  largo.  En 
un  panel  corto,  el  numero  de  sujetos  de  corte  transversal,  N,  es  mayor  que  el  numero  de  periodos, 
T.  En  un  panel  largo,  T  es  mayor  que  N.  Como  explicaremos  mas  adelante,  las  tecnicas  de  estima- 
cion  dependen  de  que  se  cuente  con  un  panel  corto  o  uno  largo. 

Entonces,  /,que  opciones  hay?  Existen  cuatro  posibilidades. 

1.  Modelo  de  MCO  agrupados.  Tan  solo  se  agrupan  las  90  observaciones  y  se  estima  una 
“gran”  regresion,  sin  atender  la  naturaleza  de  corte  transversal  y  de  series  de  tiempo  de  los 
datos. 


3  William  H.  Greene,  Econometric  Analysis,  6a.  ed.,  2008.  Los  datos  se  localizan  en  http://pages.stern.nyu. 
edu/~wgreen/Text/econometri  canalysis.htm. 
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2.  Modelo  de  mi'nimos  cuadrados  con  variable  dicotoma  (MCVD)  de  efectos  fijos.  Aqui  se 
agrupan  las  90  observaciones,  pero  se  permite  que  cada  unidad  de  corte  transversal  (es  decir, 
cada  aerolinea  en  este  ejemplo)  tenga  su  propia  variable  dicotoma  (intercepto). 

3.  Modelo  de  efectos  fijos  dentro  del  grupo.  En  este  caso  tambien  se  agrupan  las  90  observa¬ 
ciones,  pero  por  cada  aerolinea  expresamos  cada  variable  como  una  desviacion  de  su  valor 
medio  y  luego  estimamos  una  regresion  de  MCO  sobre  los  valores  corregidos  por  la  media  o 
“sin  media”. 

4.  Modelo  de  efectos  aleatorios  (MEFA).  A  diferencia  del  modelo  de  MCVD,  en  el  que  se  per¬ 
mite  que  cada  aerolinea  tenga  su  propio  valor  de  intercepto  (fijo),  suponemos  que  los  valores 
del  intercepto  son  una  extraccion  aleatoria  de  una  poblacion  mucho  mayor  de  aerolineas. 

A  continuacion  analizamos  cada  metodo  con  los  datos  de  la  tabla  16.1.  (Vease  el  sitio  web  del 

libro  de  texto.) 

16.3  Modelo  de  regresion  con  MCO  agrupados 
o  de  coeficientes  constantes 


Considere  el  siguiente  modelo: 

Cu  =  P\  +  PiQit  +  PiP  Fu  +  Pa LFj t  +  Uit  (16.3.1) 

i  —  1,  2, .  . . ,  6 
t=  1,2, . .  . ,  15 

donde  i  es  el  z-esimo  sujeto  y  t  es  cl  periodo  para  las  variables  que  se  definieron  antes.  Elegimos 
la  funcion  lineal  de  costo  para  efectos  ilustrativos,  pero  en  el  ejercicio  16.10  se  pedira  estimar 
una  funcion  log-lineal,  o  doble-log,  en  cuyo  caso  los  coeficientes  de  la  pendiente  daran  las  esti- 
maciones  de  elasticidad. 

Observe  que  agrupamos  las  90  observaciones  en  su  totalidad,  pero  tenga  en  cuenta  que  supo¬ 
nemos  que  los  coeficientes  de  regresion  son  iguales  para  todas  las  aerolineas.  Es  decir,  no  hay 
distincion  entre  ellas:  una  aerolinea  es  tan  buena  como  otra,  supuesto  quiza  dificil  de  sostener. 

Se  supone  que  las  variables  explicativas  no  son  estocasticas.  Si  lo  son,  no  estan  correlaciona- 
das  con  el  termino  de  error.  En  ocasiones  se  supone  que  las  variables  explicativas  son  estricta- 
mente  exogenas.  Se  dice  que  una  variable  es  estrictamente  exogena  si  no  depende  de  los  valores 
actuales,  pasados  y  futuros  del  termino  de  error  iijt. 

Tambien  se  supone  que  el  termino  de  error  es  ult  ~  iid( 0,  <r2),  es  decir,  distribuido  de  manera 
independiente  e  identica,  con  media  cero  y  varianza  constante.  Para  efectos  de  la  prueba  de 
hipotesis,  podemos  suponer  que  el  termino  de  error  esta  distribuido  normalmente.  Observe  la 
notacion  con  doble  subindice  de  la  ecuacion  (16.3.1),  la  cual  se  explica  por  si  misma. 

Presentemos  primero  los  resultados  de  la  ecuacion  estimada  (16.3.1)  y  luego  analizaremos  los 
problemas  que  presenta  este  modelo.  Los  resultados  de  la  regresion  basados  en  EViews,  version 
6,  se  presentan  en  la  tabla  16.2. 

Si  examina  los  resultados  de  la  regresion  agrupada  y  aplica  los  criterios  convencionales, 
vera  que  todos  los  coeficientes  de  regresion  no  solo  son  muy  significativos  estadisticamente,  sino 
que  tambien  concuerdan  con  las  expectativas  previas  y  que  el  valor  de  R2  es  muy  alto.  El  unico 
“pelo  en  la  sopa”  es  que  el  estadistico  estimado  de  Durbin- Watson  es  muy  bajo,  lo  que  indica  una 
posible  autocorrelation  o  correlation  espacial  de  los  datos.  Por  supuesto,  como  bien  sabemos,  un 
valor  bajo  Durbin- Watson  tambien  puede  deberse  a  errores  de  especificacion. 

El  problema  principal  de  este  modelo  es  que  no  distingue  entre  las  diferentes  aerolineas  ni 
indica  si  la  respuesta  de  costo  total  a  las  variables  explicativas  a  traves  del  tiempo  es  la  misma 
para  todas  las  aerolineas.  En  otras  palabras,  si  agrupamos  diferentes  aerolineas  en  diferentes 
periodos  se  oculta  la  heterogeneidad  (individualidad  o  singularidad)  que  puede  existir  entre  las 
aerolineas.  Otra  forma  de  plantear  esto  es  que  la  individualidad  de  cada  sujeto  se  subsume  en  el 
termino  de  perturbation  ult.  En  consecuencia,  es  muy  posible  que  el  termino  de  error  se  correla- 
cione  con  algunas  regresoras  del  modelo.  En  ese  caso,  los  coeficientes  estimados  en  la  ecuacion 
(16.3.1)  pueden  estar  sesgados,  ademas  de  ser  inconsistentes.  Recuerde  que  un  supuesto  impor- 
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TAB  LA  16.2 


Variable  dependiente :  C 
Metodo:  Minimos  cuadrados 
Observaciones  incluidas :  90 


Coeficiente  Error  estandar  Estadlstico  t  Prob. 

C  (intercepto)  1158559.  360592.7  3.212930  0.0018 

Q  2026114.  61806.95  32.78134  0.0000 

PF  1.225348  0.103722  11.81380  0.0000 

LF  -3065753.  696327.3  -4.402747  0.0000 


R  cuadrada 

0 . 946093 

Media  de  la  variable  dependiente 

1122524  . 

R  cuadrada  ajustada 

0 . 944213 

Desviacion  estandar  de  la 

Error  estandar  de 

la  regresion 

281559 . 5 

variable  dependiente 

1192075 . 

Suma  de  cuadrados 

residual 

6 . 82E+12 

Estadlstico  F 

503 . 1176 

Prob.  (estadlstico  F) 

0 . 000000 

Durbin- Wat son 

0.434162 

tante  del  modelo  clasico  de  regresion  lineal  es  que  no  hay  correlacion  entre  las  regresoras  y  el 
termino  de  perturbation  o  error. 

Para  ver  como  el  termino  de  error  se  correlaciona  con  las  regresoras,  considere  la  siguiente 
revision  del  modelo  (16.3.1): 

Cit  =  P\  +  P2  P  Fu  +  PiLFu  +  finMit  +  u  it  (16.5.2) 

donde  la  variable  adicional  M  —  filosofia  de  la  administracion  o  calidad  de  la  administration.  De 
las  variables  en  la  ecuacion  (16.3.2),  solo  la  variable  M  es  invariante  en  el  tiempo  (o  constante 
en  el  tiempo)  porque  varia  entre  sujetos,  pero  es  constante  a  traves  del  tiempo  para  un  sujeto 
(aerolinea)  dado. 

Aunque  es  invariante  en  el  tiempo,  la  variable  M  no  puede  observarse  directamente  y,  por 
tanto,  no  se  puede  medir  su  contribution  a  la  funcion  de  costo.  Sin  embargo,  esto  se  consigue  de 
manera  indirecta  si  escribimos  la  ecuacion  (16.3.2)  como 

Cit  —  Pi  +  P2P  Fit  +  PiLFjt  +  oii  +  Uit  (16.3.3) 

donde  «„  denominado  efecto  no  observado  o  de  heterogeneidad,  refleja  el  efecto  de  M  sobre  el 
costo.  Observe  que,  para  simplificar,  solo  mostramos  el  efecto  no  observado  de  M  sobre  el  costo, 
pero  en  realidad  puede  haber  mas  efectos  no  observados;  por  ejemplo,  el  caracter  de  la  propiedad 
(publica  o  privada),  si  se  trata  de  una  empresa  propiedad  de  una  minoria,  si  el  director  general  es 
hombre  o  mujer,  etc.  Aunque  dichas  variables  pueden  diferir  entre  sujetos  (aerolineas),  es  proba¬ 
ble  que  no  varien  para  un  sujeto  dado  durante  el  periodo  de  la  muestra. 

Como  a,  no  es  directamente  observable,  ^por  que  no  considerarlo  aleatorio  e  incluirlo  en  el 
termino  de  error  u,t  y,  por  tanto,  considerar  el  termino  de  error  compuesto  vlt  —  a,  +  u if!  Ahora 
escribimos  la  ecuacion  (16.3.3)  ash 

Cit  =  Pi  +  p2PFt,  +  foLFu  +  vt,  (16.3.4) 

Pero  si  el  termino  a,  incluido  en  el  termino  de  error  v,;  esta  correlacionado  con  cualquiera  de 
las  regresoras  de  la  ecuacion  (16.3.4),  hay  una  violacion  de  un  supuesto  fundamental  del  modelo 
clasico  de  regresion  lineal:  que  el  termino  de  error  no  esta  correlacionado  con  las  regresoras. 
Como  sabemos,  en  esta  situacion  los  estimados  de  MCO  no  solo  estan  sesgados,  sino  que  tam- 
bien  son  inconsistentes. 

Existe  una  posibilidad  real  de  que  el  termino  a,  no  observable  este  correlacionado  con  una  o 
mas  de  las  regresoras.  Por  ejemplo,  la  administracion  de  una  aerolinea  puede  actuar  de  manera  in- 
teligente  y  comprar  contratos  de  future  sobre  el  precio  del  combustible  para  evitar  fluctuaciones 
bruscas  de  los  precios.  Esto  tendria  el  efecto  de  reducir  el  costo  de  los  servicios  de  la  aerolinea. 
Como  resultado  de  esta  correlacion,  podemos  demostrar  que  cov(v,,,  v,s)  =  er^;  t  /  s,  que  es 
diferente  de  cero,  y,  por  tanto,  la  heterogeneidad  (no  observada)  induce  autocorrelation  y  habra 
que  prestarle  atencion.  Mas  adelante  indicaremos  como  manejar  este  problema. 
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En  consecuencia,  la  pregunta  es  como  se  toman  en  cuenta  los  efectos  no  observables,  o  hetero- 
geneidad,  para  obtener  estimaciones  consistentes  y  eficientes  de  los  parametros  de  las  variables  de 
interes  primordial,  que  son  produccion,  precio  del  combustible  y  factor  de  carga  en  este  caso. 
El  interes  primordial  quiza  no  se  centre  en  obtener  el  efecto  de  las  variables  no  observables 
porque  estas  no  cambian  para  un  sujeto  dado.  Por  esta  razon,  los  efectos  no  observables,  o  hete- 
rogeneidad,  se  llaman  parametros  incomodos.  (.Como  proceder  entonces?  Lo  veremos  a  conti¬ 
nuation. 


16.4  Modelo  de  imnimos  cuadrados  con  variable  dicotoma 
(MCVD)  de  efectos  fijos 


El  modelo  de  minimos  cuadrados  con  variable  dicotoma  (MCVD)  toma  en  cuenta  la  heterogenei- 
dad  entre  sujetos  porque  permite  que  cada  entidad  tenga  su  propio  valor  del  intercepto,  como  se 
muestra  en  el  modelo  (16.4.1).  Una  vez  mas,  trabajaremos  con  el  ejemplo  de  las  aerolineas. 

Cn  —  Pi  i  +  PiQit  +  Pt,P  Fu  +  P^LFit  +  Ha  (16.4.1) 

i  =  1,2...,  6 
f  =  1,2,...,  15 

Observe  que  utilizamos  el  subindice  i  en  el  termino  del  intercepto  para  indicar  que  los  intercep- 
tos  de  las  seis  aerolineas  pueden  ser  diferentes.  Las  diferencias  quiza  se  deban  a  caracteristicas 
especiales  de  cada  aerolinea,  como  el  estilo  de  administration,  la  filosofia  de  la  empresa  o  el  tipo 
de  mercado  que  atiende  cada  aerolinea. 

En  la  bibliografia,  el  modelo  (16.4.1)  se  conoce  como  modelo  (regresion)  de  efectos  fijos 
(MEF).  El  termino  “efectos  fijos”  se  debe  a  que,  aunque  el  intercepto  puede  diferir  entre  los 
sujetos  (en  este  caso  las  seis  aerolineas),  el  intercepto  de  cada  entidad  no  varia  con  el  tiempo,  es 
decir,  es  invariante  en  el  tiempo.  Observe  que  si  el  intercepto  se  escribiera  Pm,  indicaria  que  el 
intercepto  de  cada  entidad  o  individuo  es  variable  en  el  tiempo.  Cabe  senalar  que  el  MEF  dado 
en  la  ecuacion  (16.4.1)  supone  que  los  coeficientes  (de  las  pendientes)  de  las  regresoras  no  varian 
segun  los  individuos  ni  a  traves  del  tiempo. 

Antes  de  seguir  adelante,  es  util  visualizar  la  diferencia  entre  el  modelo  de  regresion  agrupada 
y  el  modelo  de  MCVD.  Para  simplificar,  suponga  que  deseamos  efectuar  una  regresion  del  costo 
total  solo  sobre  la  produccion.  En  la  figura  16.1  se  muestra  esta  funcion  de  costo  estimada  para 
dos  aerolineas  por  separado,  asi  como  la  funcion  de  costo  si  agrupamos  los  datos  de  las  dos  em- 


FIGURA  16.1 

Sesgo  por  omitir  los 
efectos  fijos. 


Produccion 


V, 
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presas;  esto  equivale  a  no  tomar  en  cuenta  los  efectos  fijos.4  En  la  figura  16.1  se  observa  como  la 
regresion  agrupada  sesga  la  estimation  de  la  pendiente. 

/.Como  se  permite  en  realidad  que  el  intercepto  (de  efecto  fijo)  varie  entre  las  aerolineas?  Se 
realiza  con  facilidad  mediante  la  tecnica  de  las  variables  dicotomas  que  explicamos  en  el  capitulo 
9,  en  particular  las  variables  dicotomas  con  intercepto  diferencial.  Ahora  expresamos  asi  la 
ecuacion  (16.4.1): 


Clt  —  Qfi  +  a2D2i  +  a2D2i  +  a4D4i  +  a5D5i  +  a6D6i 

+  PiQit  +  P?>P  Fu  +  p4LFj,  +  tin  (16.4.2) 

donde  D2i  —  1  si  la  observacion  corresponde  a  la  aerolinea  2,  y  0  en  otro  caso;  Z>3,  =  1  si  la 
observacion  es  de  la  aerolinea  3,  y  0  en  otro  caso;  y  asi  sucesivamente.  Como  se  trata  de  seis 
aerolineas,  solo  utilizamos  cinco  variables  dicotomas  para  evitar  caer  en  la  trampa  de  la  va¬ 
riable  dicotoma  (es  decir,  una  situation  de  colinealidad  perfecta).  En  este  caso,  la  aerolinea  1 
se  considera  la  categoria  base  o  de  referenda.  Desde  luego,  podemos  elegir  cualquier  aerolinea 
como  punto  de  referenda.  Como  resultado,  el  intercepto  a.\  es  el  valor  del  intercepto  de  la  ae- 
rolinea  1,  y  los  demas  coeficientes  a  representan  el  grado  en  que  los  valores  de  los  interceptos 
de  las  demas  aerolineas  difieren  del  valor  del  intercepto  de  la  primera  aerolinea.  Asi,  a2  indica 
por  cuanto  difiere  de  «,  el  valor  del  intercepto  de  la  segunda  aerolinea.  La  suma  («|  +a2 )  da  el 
valor  real  del  intercepto  de  la  aerolinea  2.  Los  valores  de  los  interceptos  de  las  demas  aerolineas 
se  calculan  del  mismo  modo.  Recuerde  que  si  desea  introducir  una  variable  dicotoma  para  cada 
aerolinea,  es  necesario  omitir  el  intercepto  (comun);  de  lo  contrario,  caera  en  la  trampa  de  la 
variable  dicotoma. 

Los  resultados  del  modelo  (16.4.2)  para  estos  datos  se  presentan  en  la  tabla  16.3. 

Lo  primero  que  debe  notarse  en  estos  resultados  es  que  todos  los  coeficientes  de  los  inter¬ 
ceptos  diferenciales  son  muy  significativos  estadisticamente  en  lo  individual,  lo  cual  indica  que 
tal  vez  las  seis  aerolineas  son  heterogeneas  y,  por  tanto,  los  resultados  de  la  regresion  agrupada 
presentados  en  la  tabla  16.2  son  dudosos.  Los  valores  de  los  coeficientes  de  las  pendientes  de  las 
tablas  16.2  y  16.3  tambien  son  diferentes,  lo  que  una  vez  mas  arroja  dudas  sobre  los  resultados 
de  la  tabla  16.2.  A1  parecer,  el  modelo  (16.4.1)  es  mejor  que  el  modelo  (16.3.1).  A  proposito,  ob¬ 
serve  que  los  MCO  aplicados  a  un  modelo  de  efectos  fijos  producen  estimadores  que  se  Hainan 
estimadores  de  efectos  fijos. 


TABLA  16.3 


Variable  dependiente :  CT 

Metodo:  Minimos  cuadrados 

Muestra:  1- 

90 

Observaciones  incluidas :  90 

Coef iciente 

Error  estandar 

Estadistico  t 

Prob . 

C  (=«i) 

-131236 . 0 

350777 . 1 

-0.374129 

0 . 7093 

Q 

3319023  . 

171354 . 1 

19.36939 

0 . 0000 

PF 

0 . 773071 

0 . 097319 

7 . 943676 

0 . 0000 

LF 

-3797368  . 

613773 . 1 

-6.186924 

0 . 0000 

DIC2 

601733 .2 

100895 . 7 

5 . 963913 

0 . 0000 

DIC3 

1337180 . 

186171 . 0 

7 . 182538 

0 . 0000 

DIC4 

1777592  . 

213162 . 9 

8 .339126 

0 . 0000 

DIC5 

1828252  . 

231229 . 7 

7 . 906651 

0 . 0000 

DIC6 

1706474  . 

228300 . 9 

7.474672 

0 . 0000 

R  cuadrada 

0.971642  Media 

de  la  variable  dependiente 

1122524 . 

R  cuadrada 

ajustada 

0.968841  Desviacion  estandar  de  la 

Error  estandar  de 

la  regresion 

210422.8  variable  dependiente 

1192075 . 

Suma  de  cuadrados 

residual 

3.59E+12  Estadistico  F 

346 . 9188 

Log  verosimilitud 

-1226.082  Prob. 

(estadistico  F) 

0 . 000000 

Estadistico  Durbin-Watson 

0 . 693288 

4  Adaptado  de  las  notas  ineditas  de  Alan  Duncan. 
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Podemos  proporcionar  una  prueba  formal  de  los  dos  modelos.  En  relacion  con  el  modelo 
(16.4.1),  el  modelo  (16.3.1)  es  un  modelo  restringido  pues  impone  un  intercepto  comun  para 
todas  las  aerollneas.  En  consecuencia,  podemos  utilizar  la  prueba  F  restringida  analizada  en 
el  capltulo  8.  Mediante  la  formula  (8.6.10),  el  lector  puede  verificar  que  en  el  ejemplo  presente  el 
valor  .Fes: 

(0.971642  -  0.946093)/5 

F  =  - - —  »  14.99 

(1  -0.971642)/81 

Nota:  Los  valores  de  R2  restringida  y  no  restringida  se  obtienen  de  las  tablas  16.1  y  16.2.  Observe 
tambien  que  el  numero  de  restricciones  es  5  (<,por  que?) 

La  hipotesis  nula  en  este  caso  es  que  todos  los  interceptos  diferenciales  son  iguales  a  cero.  El 
valor  F  calculado  de  5  gl  para  el  numerador  y  8 1  gl  para  el  denominador  es  muy  significative  es- 
tadisticamente.  Por  tanto,  se  rechaza  la  hipotesis  nula  de  que  todos  los  interceptos  (diferenciales) 
son  iguales  a  cero.  Si  el  valor  F  no  fuera  significativo  estadisticamente,  concluiriamos  que  no  hay 
diferencias  entre  los  interceptos  de  las  seis  aerolineas.  En  este  caso,  habriamos  agrupado  las  90 
observaciones,  como  en  la  regresion  agrupada  de  la  tabla  16.2. 

El  modelo  (16.4.1)  se  conoce  como  modelo  de  efectos  fijos  unidireccionales  porque  permite 
que  los  interceptos  varien  entre  las  aerolineas.  Pero  tambien  podemos  permitir  el  efecto  tiempo 
si  creemos  que  la  funcion  de  costo  cambia  con  el  tiempo  a  causa  de  otros  factores,  como  los 
avances  tecnologicos,  variaciones  en  las  politicas  de  regulacion  gubernamental  o  fiscal,  asi  como 
otros  efectos.  Tales  efectos  temporales  se  toman  en  cuenta  con  facilidad  si  introducimos  variables 
dicotomas  temporales,  una  para  cada  ano  de  1970  a  1984.  Como  hay  datos  para  15  anos,  introdu¬ 
cimos  14  variables  dicotomas  temporales  (^por  que?)  y  ampliamos  el  modelo  (16.4.1)  mediante 
la  adicion  de  estas  variables.  Si  hacemos  eso,  el  modelo  resultante  se  llama  modelo  de  efectos 
fijos  bidireccionales  porque  tiene  en  cuenta  los  efectos  tanto  individuales  como  temporales. 

En  el  presente  ejemplo,  si  agregamos  las  variables  dicotomas  de  tiempo,  tendremos  que  es- 
timar  23  coeficientes  en  total:  el  intercepto  comun,  cinco  variables  dicotomas  de  las  aerolineas, 
14  variables  dicotomas  de  tiempo  y  tres  coeficientes  de  pendientes.  Como  se  ve,  consumiremos 
varios  grados  de  libertad.  Ademas,  si  permitimos  que  los  coeficientes  de  las  pendientes  difieran 
entre  empresas,  las  cinco  variables  de  empresas  (aerolineas)  interactuan  con  cada  una  de  las  tres 
variables  explicativas  e  introducen  coeficientes  de  pendientes  diferenciales  dicotomas.  Enton- 
ces  habra  que  estimar  15  coeficientes  adicionales  (interacciones  de  cinco  variables  dicotomas 
con  tres  variables  explicativas).  Como  si  esto  fuera  poco,  si  las  14  variables  dicotomas  de  tiempo 
interactuan  con  las  tres  variables  explicativas,  tendremos  un  total  de  42  coeficientes  adicionales 
que  deben  estimarse.  Como  se  aprecia,  no  queda  ningun  grado  de  libertad. 

Advertencia  sobre  el  modelo  de  MCVD  de  efectos  fijos 

Como  indica  el  analisis  precedente,  el  modelo  MCVD  presenta  algunos  problemas  que  es  nece- 
sario  tener  en  cuenta: 

Primero,  si  se  introducen  demasiadas  variables  dicotomas,  puede  presentarse  el  problema  de 
los  grados  de  libertad.  Es  decir,  no  habra  observaciones  suficientes  para  un  analisis  estadistico 
significativo.  Segundo,  con  tantas  variables  dicotomas  en  el  modelo,  tanto  individuales  como 
interactivas  o  multiplicativas,  siempre  esta  presente  la  posibilidad  de  la  multicolinealidad,  que 
puede  dificultar  la  estimacion  precisa  de  uno  o  mas  parametros. 

Tercero,  en  algunas  situaciones,  es  posible  que  el  modelo  de  MCVD  no  identifique  el  efecto  de 
las  variables  que  no  cambian  con  el  tiempo.  Suponga  que  deseamos  estimar  la  funcion  de  salario 
de  un  grupo  de  trabajadores  con  datos  de  panel.  Ademas  del  salario,  una  funcion  de  salario  in- 
cluye  edad,  experiencia  y  nivel  de  escolaridad  como  variables  explicativas.  Suponga  tambien  que 
decidimos  incluir  genero,  color  y  origen  etnico  como  variables  adicionales  del  modelo.  Como 
estas  variables  no  cambian  con  el  tiempo  para  cada  individuo,  el  modelo  MCVD  quiza  no  iden¬ 
tifique  el  impacto  sobre  los  salarios  de  estas  variables  que  no  cambian  con  el  tiempo.  En  otras 
palabras,  los  interceptos  especificos  de  cada  sujeto  absorben  toda  la  heterogeneidad  que  exista  en 
las  variables  dependiente  y  explicativas.  Por  cierto,  las  variables  que  no  cambian  con  el  tiempo  a 
veces  se  llaman  variables  incomodas  o  variables  ocultas. 


Capftulo  1  6  Modelos  de  regresion  con  datos  de panel  599 


Cuarto,  tenemos  que  reflexionar  con  mucho  cuidado  sobre  el  termino  de  error  u„.  Los  resul- 
tados  presentados  en  las  ecuaciones  (16.3.1)  y  (16.4.1)  se  basan  en  el  supuesto  de  que  el  termino 
de  error  se  apega  a  los  supuestos  clasicos,  a  saber:  ult  ~  N( 0,  a2).  Como  el  indice  i  se  refiere  a  las 
observaciones  de  corte  transversal  y  t  a  las  observaciones  de  series  de  tiempo,  quiza  deba  modi- 
ficarse  el  supuesto  clasico  respecto  de  uIt.  Existen  diversas  posibilidades: 

1 .  Podemos  suponer  que  la  varianza  del  error  es  la  misma  para  todas  las  unidades  de  corte  trans¬ 
versal,  o  que  la  varianza  del  error  es  heteroscedastica.5 

2.  Para  cada  individuo,  podemos  suponer  que  no  existe  autocorrelation  a  traves  del  tiempo. 
Entonces,  en  el  ejemplo  ilustrativo,  podemos  suponer  que  el  termino  de  error  de  la  funcion  de 
costo  de  la  aerolinea  1  no  esta  autocorrelacionado,  o  bien,  que  si  lo  esta,  digamos  con  el  tipo 
AR(1). 

3.  En  un  determinado  tiempo,  es  posible  que  el  termino  de  error  de  la  aerolinea  1  este  correla- 
cionado  con  el  termino  de  error  de  la  aerolinea  2,  por  ejemplo.6  O  bien,  podemos  suponer  que 
no  existe  tal  correlation. 

Existen  tambien  otras  permutaciones  y  combinaciones  del  termino  de  error.  Como  es  facil  darse 
cuenta,  si  se  permite  una  o  mas  de  estas  posibilidades,  el  analisis  se  complica  mucho  mas.  (El 
espacio  disponible  y  las  exigencias  matematicas  impiden  considerar  todas  las  posibilidades.  En 
las  referencias  de  la  nota  1  se  analizan  algunos  de  estos  temas.)  No  obstante,  algunos  de  estos 
problemas  pueden  resolverse  con  las  opciones  que  analizamos  en  las  siguientes  dos  secciones. 


16.5  Estimador  de  efectos  fijos  dentro  del  grupo  (DG) 


Una  forma  de  estimar  una  regresion  agrupada  es  eliminar  el  efecto  fijo,  (i \ „  expresando  los 
valores  de  las  variables  dependiente  y  explicativas  de  cada  aerolinea  como  desviaciones  de  sus 
respectivos  valores  medios.  Asi,  para  la  aerolinea  1  obtenemos  los  valores  muestrales  medios  de 
TC,  Q,  PF  y  LF  ( TC ,  Q,  PF  y  LF,  respectivamente)  y  los  restamos  de  los  valores  individua- 
les  de  estas  variables.  Los  valores  resultantes  se  llaman  valores  corregidos  por  la  media,  o  “sin 
media”.  Hacemos  esto  con  cada  aerolinea  y  luego  agrupamos  todos  los  (90)  valores  corregidos 
por  la  media  para  ejecutar  una  regresion  de  MCO. 

Si  tcit,  qit,  pfit  y  lft  representan  los  valores  corregidos  por  la  media,  efectuamos  la  siguiente 
regresion: 

tcit  =  Pi  qit  +  Pi  pfit  +  Pul  ft  +  uit  (16.5.1) 

donde  i  =  1, 2, . . . ,  6,  y  t  =  1, 2, . . . ,  15.  Observe  que  la  ecuacion  (16.5.1)  no  tiene  termino  de 
intercepto  (,',por  que?). 

De  vuelta  al  ejemplo,  obtenemos  los  resultados  de  la  tabla  16.4.  Nota:  El  prefijo  DM  significa 
que  los  valores  estan  corregidos  por  la  media  o  expresados  como  desviaciones  de  sus  medias 
muestrales. 

Observe  la  diferencia  entre  la  regresion  agrupada  que  presentamos  en  la  tabla  16.2  y  la  de 
la  tabla  16.4.  La  primera  tan  solo  omite  la  heterogeneidad  entre  las  seis  aerolineas,  mientras 
que  la  segunda  la  toma  en  cuenta  no  por  el  metodo  de  la  variable  dicotoma,  sino  que  la  elimina 
mediante  la  diferenciacion  de  las  observaciones  de  la  muestra  en  torno  a  sus  medias  muestrales. 
La  diferencia  entre  las  dos  es  evidente,  como  se  aprecia  en  la  figura  16.2. 

Se  muestra  que  el  estimador  DG  produce  estimaciones  consistentes  de  los  coeficientes  de  pen- 
diente,  mientras  que  la  regresion  agrupada  ordinaria  tal  vez  no.  Sin  embargo,  debe  anadirse  que 


5  STATA  ofrece  errores  estandar  corregidos  por  heteroscedasticidad  en  los  modelos  de  regresion  con  datos 
de  panel. 

6  Esto  conduce  al  llamado  modelo  de  regresion  aparentemente  no  relacionado  (SURE,  por  sus  siglas 
en  ingles),  propuesto  originalmente  por  Arnold  Zellner.  Vease  A.  Zellner,  "An  Efficient  Method  of  Estimating 
Seemingly  Unrelated  Regressions  and  Tests  for  Aggregation  Bias",  lournal  of  the  American  Statistical  Associa¬ 
tion,  vol.  57,  1962,  pp.  348-368. 
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TAB  LA  16.4 

Variable  dependiente:  DMCT 

Metodo:  Minimos  cuadrados 

Muestra:  1-90 

Observaciones  incluidas :  90 

Coef iciente 

Error  estandar  Estadlstico  t 

Prob . 

DMQ  3319023. 

DMPF  0.773071 

DMLF  -3797368. 

165339.8  20.07396 

0.093903  8.232630 

592230.5  -6.411976 

0 . 0000 

0 . 0000 

0 . 0000 

R  cuadrada 

R  cuadrada  ajustada 

Error  estandar  de  la  regresion 
Suma  de  cuadrados  residual 

0.929366  Media  de  la  variable  dependiente 

0.927743  Desviacion  estandar  de  la 

203037.2  variable  dependiente 

3.59E+12  Estadistico  Durbin-Watson 

2 . 59E-11 

755325 . 8 

0 .693287 

FIGURA  16.2 

Estimador  dentro  de 
grupos. 

Fuente:  Alan  Duncan,  “Cross- 
Section  and  Panel  Data  Econo¬ 
metrics”,  notas  sin  publicar  para 
conferencia  (adaptado). 


los  estimadores  DG,  aunque  consistentes,  son  ineficientes  (es  decir,  tienen  varianzas  grandes)  en 
comparacion  con  los  resultados  de  la  regresion  agrupada  ordinaria.7  Observe  que  los  coeficientes 
de  pendiente  de  Q,  PF  y  LF  son  identicos  en  las  tablas  16.3  y  16.4.  Esto  es porque  matematica- 
mente  los  dos  modelos  son  identicos.  A  proposito,  los  coeficientes  de  regresion  estimados  por  el 
metodo  DG  se  llaman  estimadores  DG. 

Una  desventaja  del  estimador  DG  se  explica  con  el  siguiente  modelo  de  regresion  salarial: 

Wn  —  P\i  +  ftExperiencia,',  +  /^Edad  „  +  ^Genero,,  +  /IsEducacion,,  +  ^Raza,? 

(16.5.2) 

En  esta  funcion  de  salario,  las  variables  como  genero,  educacion  y  raza  son  invariantes  en  el 
tiempo.  Si  usamos  estimadores  DG,  estas  variables  que  no  cambian  con  el  tiempo  se  eliminarian 


7  La  razon  de  esto  es  que,  cuando  las  variables  se  expresan  como  desviaciones  de  sus  valores  medios,  la 
variacion  en  estos  valores  corregidos  por  la  media  es  mucho  mas  pequena  que  la  variacion  de  los  valores 
originales  de  las  variables.  En  ese  caso,  la  variacion  del  termino  de  perturbacion  u/t  puede  ser  relativamente 
grande,  lo  que  produce  errores  estandar  mas  altos  de  los  coeficientes  estimados. 
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(por  la  diferenciacion).  Como  resultado,  no  se  sabemos  como  reacciona  el  salario  ante  estas  va- 
riables  invariantes  en  el  tiempo.8  Pero  es  el  precio  que  hay  que  pagar  para  evitar  la  correlacion 
entre  el  termino  de  error  (a,  incluido  en  v„)  y  las  variables  explicativas. 

Otra  desventaja  del  estimador  DG  es  que  “puede  distorsionar  los  valores  de  los  parametros  y 
desde  luego  eliminar  los  efectos  de  largo  plazo”.9  En  general,  cuando  se  diferencia  una  variable, 
se  elimina  el  componente  de  largo  plazo  de  esa  variable.  Lo  que  queda  es  el  valor  de  corto  plazo 
de  esa  variable.  Analizaremos  este  tema  en  detalle  cuando  expliquemos  la  econometrla  de  series 
de  tiempo,  mas  adelante. 

A1  usar  MCVD  obtuvimos  estimaciones  directas  de  los  interceptos  de  cada  aerollnea.  (',C6mo 
podemos  obtener  las  estimaciones  de  los  interceptos  con  el  metodo  DG?  En  el  ejemplo  de  las 
aerolineas  se  obtienen  como  sigue: 

0Li  =  Ci-  hQl-  hPFl-  foLF  (16.5.3) 

donde  las  barras  sobre  las  variables  denotan  valores  muestrales  medios  de  las  variables  para  la 
/-esima  aerolinea. 

Es  decir,  obtuvimos  el  valor  del  intercepto  de  la  z-esima  aerolinea  al  restar  del  valor  medio  de 
la  variable  dependiente  los  valores  medios  de  las  variables  explicativas  de  esa  aerolinea  multi- 
plicados  por  los  coeficientes  estimados  de  pendiente  que  se  obtuvieron  con  los  estimadores  DG. 
Observe  que  los  coeficientes  estimados  de  pendiente  permanecen  igual  para  todas  las  aerolineas, 
como  se  muestra  en  la  tabla  16.4.  Cabe  senalar  que  el  intercepto  estimado  en  la  ecuacion  (16.5.3) 
se  asemeja  al  intercepto  que  estimamos  en  el  modelo  de  regresion  lineal  estandar,  que  se  presenta 
en  la  ecuacion  (7.4.21).  Se  deja  al  lector  la  tarea  de  calcular  los  interceptos  de  las  seis  aerolineas 
de  la  manera  mostrada  y  verificar  que  son  iguales  a  los  valores  de  los  interceptos  derivados  en  la 
tabla  16.3,  salvo  por  errores  de  redondeo. 

Observe  que  el  intercepto  estimado  de  cada  aerolinea  representa  las  caracteristicas  especifi- 
cas  de  cada  aerolinea,  pero  no  podremos  identificar  estas  caracteristicas  individualmente.  Por 
consiguiente,  el  intercepto  oq  de  la  aerolinea  1  representa  la  filosofia  de  la  administracion  de  esa 
aerolinea,  la  composicion  del  consejo  de  administracion,  la  personalidad  del  director  general, 
el  genero  del  director  general,  etc.  Todas  estas  caracteristicas  de  heterogeneidad  se  integran  al 
valor  del  intercepto.  Como  veremos  mas  adelante,  tales  caracteristicas  se  incluyen  en  el  modelo 
de  efectos  aleatorios. 

A  proposito,  debe  senalarse  que  una  alternativa  al  estimador  DG  es  el  metodo  de  primeras 
diferencias.  En  el  metodo  DG  expresamos  cada  variable  como  una  desviacion  del  valor  medio 
de  dicha  variable.  En  el  metodo  de  primeras  diferencias,  por  cada  sujeto  se  obtienen  diferencias 
sucesivas  de  las  variables.  Asi,  para  la  aerolinea  1  se  resta  la  primera  observacion  de  TC  de  la 
segunda  observacion  de  TC,  la  segunda  observacion  de  TC  de  la  tercera,  y  asi  sucesivamente. 
Hacemos  lo  mismo  con  cada  variable  restante  y  repetimos  el  proceso  con  las  demas  cinco  aeroli¬ 
neas.  Despues  de  este  proceso  tenemos  solo  14  observaciones  por  aerolinea,  pues  la  primera  ob¬ 
servacion  no  tiene  valor  previo.  Como  resultado,  ahora  tenemos  84  observaciones  en  lugar  de  las 
90  originales.  A  continuacion  efectuamos  la  regresion  de  los  valores  de  primeras  diferencias  de  la 
variable  TC  sobre  los  valores  de  primeras  diferencias  de  las  variables  explicativas  como  sigue: 

ATC, 7  =  /I2  A  Qji  +  /I3  A  P  Fit  +  PaALFh  +  (uu  —  ul>t-\) 

i  =  1,2,...,  6  (16.5.4) 

t  —  1,  2,  . . . ,  84 

donde  A  —  (T Clt  —  T C,_  ,_i).  Como  senalamos  en  el  capitulo  1 1 ,  A  se  conoce  como  operador  de 
primeras  diferencias.10 


8  Esto  tambien  aplica  al  modelo  MCVD. 

9  Dimitrios  Asteriou  y  Stephen  C.  Hall,  Applied  Econometrics:  A  Modern  Approach,  Palgrave  Macmillan,  Nueva 
York,  2007,  p.  347. 

10  Observe  que  la  ecuacion  (16.5.3)  no  tiene  termino  de  intercepto  (^por  que?),  pero  podemos  incluirlo  si 
hay  una  variable  de  tendencia  en  el  modelo  original. 
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A  proposito,  observe  que  el  termino  de  perturbacion  original  se  sustituye  con  la  diferencia 
entre  los  valores  actuales  y  anteriores  del  termino  de  perturbacion.  Si  el  termino  de  perturba¬ 
cion  original  no  esta  autocorrelacionado,  la  perturbacion  transformada  si  lo  esta  y,  por  tanto, 
presenta  los  tipos  de  problemas  de  estimacion  que  analizamos  en  el  capitulo  1 1 .  Sin  embargo,  si 
las  variables  explicativas  son  estrictamente  exogenas,  el  estimador  de  primeras  diferencias  es 
insesgado,  dados  los  valores  de  las  variables  explicativas.  Asimismo,  observe  que  el  metodo  de 
primeras  diferencias  tiene  las  mismas  desventajas  del  metodo  DG  en  el  sentido  de  que  las  varia¬ 
bles  explicativas  que  no  varian  con  el  tiempo  para  un  individuo  se  eliminan  en  la  transformation 
de  primeras  diferencias. 

Vale  la  pena  senalar  que  los  estimadores  de  primeras  diferencias  y  de  efectos  fijos  son  iguales 
cuando  solo  se  tienen  dos  periodos,  pero  si  hay  mas  de  dos  periodos,  estos  estimadores  difieren. 
Las  razones  de  esto  son  muy  complejas  y  el  lector  interesado  puede  consultar  las  referencias.11 
Se  deja  como  ejercicio  aplicar  el  metodo  de  primeras  diferencias  al  ejemplo  de  las  aerolineas  y 
comparer  los  resultados  con  los  demas  estimadores  de  efectos  fijos. 


16.6  Modelo  de  efectos  aleatorios  (MEFA) 

Al  comentar  sobre  los  modelos  de  efectos  fijos,  o  MCVD,  Kmenta  escribe: 12 

Una  pregunta  obvia  en  conexion  con  el  modelo  de  covarianza  [es  decir,  MCVD]  es  si  de  verdad  es 
necesario  incluir  variables  dicotomas  — con  la  consecuente  perdida  de  grados  de  libertad — .  El  fun- 
damento  del  modelo  de  covarianza  es  que,  al  especificar  el  modelo  de  regresion,  no  hemos  podido 
incluir  variables  explicativas  relevantes  que  no  varlen  con  el  tiempo  (y  posiblemente  otras  que  si 
cambian  con  el  tiempo,  pero  que  tienen  el  mismo  valor  para  todas  las  unidades  de  corte  transversal), 
y  que  la  inclusion  de  variables  dicotomas  es  un  encubrimiento  de  nuestra  ignorancia. 

Si  las  variables  dicotomas  en  efecto  reflejan  una  falta  de  conocimiento  respecto  del  modelo 
(real),  (',por  que  no  expresar  dicha  ignorancia  mediante  el  termino  de  perturbacion?  Este  es  preci- 
samente  el  metodo  propuesto  por  los  partidarios  del  modelo  de  componentes  del  error  (MCE), 
o  modelo  de  efectos  aleatorios  (MEFA),  que  ilustraremos  a  continuation  con  la  funcion  de 
costo  de  las  llneas  aereas. 

La  idea  basica  es  comenzar  con  la  ecuacion  (16.4.1): 

TCn  —  P\i  +  PiQit  +  PiP  Pu  +  Pa  LFit  +  lift  (16.6.1) 

En  vez  de  considerar  fija  a  Pu,  suponemos  que  es  una  variable  aleatoria  con  un  valor  medio 
igual  a  Pi  (en  este  caso,  sin  subindice  i).  Ademas,  el  valor  del  intercepto  para  una  empresa  indi¬ 
vidual  se  expresa  como: 

Pu=Pi+Bi  (16.6.2) 

donde  e,  es  un  termino  de  error  aleatorio  con  valor  medio  igual  a  cero  y  varianza  de  er2. 

Lo  que  afirmamos  en  esencia  es  que  las  seis  empresas  de  la  muestra  se  tomaron  de  un  universo 
mucho  mas  grande  de  este  tipo  de  companlas,  que  tienen  una  media  comun  para  el  intercepto 
(—  Pi)  y  que  las  diferencias  individuales  en  los  valores  del  intercepto  de  cada  empresa  se  reflejan 
en  el  termino  de  error  e,-. 

Al  sustituir  (16.6.2)  en  (16.6.1)  obtenemos: 

T  Cu  —  Pi  +  Pi  Qn  +  Pi  P  Fit  +  PaL  Flt  +  e,  +  mt  (16  6  3) 

—  Pi  +  PiQit  +  Pi  P  Fn  +  PaLFu  +  Wu 

donde 

Wi,=Si  +  uit  (16.6.4) 


11  Vease  en  particular  Jeffrey  M.  Woolridge,  Econometric  Analysis  of  Cross  Section  and  Panel  Data,  MIT  Press, 
Cambridge,  Massachusetts,  2002,  pp.  279-283. 

12Jan  Kmenta,  Elements  of  Econometrics,  2a.  ed.,  Macmillan,  Nueva  York,  1986,  p.  633. 
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El  termino  de  error  compuesto  wlt  consta  de  dos  componentes,  e,-,  componente  de  error  de 
corte  transversal  o  error  especifico  del  individuo,  y  u,t,  la  combination  del  componente  de  error 
de  series  de  tiempo  y  corte  transversal,  y  que  a  veces  se  denomina  termino  idiosincrasico  porque 
varia  en  el  corte  transversal  (es  decir,  el  sujeto)  asi  como  en  el  tiempo.  El  modelo  de  componentes 
del  error  (MCE)  debe  su  nombre  a  que  el  termino  de  error  compuesto  consiste  en  dos  (o  mas) 
componentes  del  error. 

Los  supuestos  comunes  en  los  que  se  basa  el  MCE  son: 


et  ~  N(Q,  a2) 
uit  ~  N(0,  cr ;) 

E(SiUi,)  -  0;  EisiSj)  =  0  (i  ^  j) 

E(uituis)  —  EiutjUij)  —  E(iiitUjS)  —  0  (i  7"  J  •>  ^ 


(16.6.5) 


es  decir,  los  componentes  del  error  individuales  no  estan  correlacionados  entre  si  y  no  estan 
autocorrelacionados  en  las  unidades  de  series  de  tiempo  ni  en  las  de  corte  transversal.  Tambien 
es  muy  importante  observar  que  wIt  no  estd  correlacionado  con  ninguna  variable  explicativa  del 
modelo.  Como  e,  es  un  componente  de  wit,  es  posible  que  el  segundo  este  correlacionado  con 
las  variables  explicativas.  Si  en  efecto  es  asi,  el  MCE  producira  una  estimation  inconsistente  de 
los  coeficientes  de  regresion.  En  breve  analizaremos  la  prueba  de  Hausman,  que  indica  en  una 
aplicacion  dada  si  wit  esta  correlacionado  con  las  variables  explicativas,  es  decir,  si  el  MCE  es  el 
modelo  apropiado. 

Observe  con  cuidado  la  diferencia  entre  el  MEF  y  el  MCE.  En  el  MEF,  cada  unidad  de  corte 
transversal  tiene  su  propio  valor  (fijo)  de  intercepto,  en  todos  los  valores  de  N  para  N  unidades 
de  corte  transversal.  Por  otra  parte,  en  el  MCE,  el  intercepto  (comun)  representa  el  valor  medio  de 
todos  los  interceptos  (de  corte  transversal),  y  el  componente  de  error  e,  significa  la  desviacion 
(aleatoria)  del  intercepto  individual  respecto  de  este  valor  medio.  No  obstante,  tenga  en  cuenta 
que  Sj  no  es  directamente  observable;  esto  se  conoce  como  variable  inobservable  o  latente. 

Como  resultado  de  los  supuestos  establecidos  en  (16.6.5),  se  deriva  que: 


E(wit)  =  0  (16.6.6) 

var  (wit)  —  cr 2  +  cr2  (1 6.6.7) 

Ahora,  si  a2  —  0,  no  hay  diferencia  entre  los  modelos  (16.3.1)  y  (16.6.3),  en  cuyo  caso  tan  solo 
se  agrupan  todas  las  observaciones  (de  corte  transversal  y  de  series  de  tiempo)  y  se  lleva  a  cabo 
la  regresion  agrupada,  como  hicimos  en  (16.3.1).  Esto  es  valido  porque  en  esta  situation  no  hay 
efectos  especificos  del  sujeto  o  porque  todos  se  tomaron  en  cuenta  en  las  variables  explicativas. 

Como  muestra  la  ecuacion  (16.6.7),  el  termino  de  error  es  homoscedastico.  Sin  embargo, 
puede  demostrarse  que  vv,,  y  wis  (t  ^  ,v)  estan  correlacionados;  es  decir,  los  terminos  de  error  de 
una  unidad  de  corte  transversal  dada  en  dos  puntos  en  el  tiempo  estan  correlacionados.  El  coefi- 
ciente  de  correlacion,  corr(w,7,  wis),  es  el  siguiente: 

( 7 2 

p  =  corr (yvit,  wis)  -  *  ;  t  j=.  s  (16.6.8) 

Observe  dos  caracteristicas  especiales  del  coeficiente  de  correlacion  anterior.  Primera,  para 
cualquier  unidad  de  corte  transversal  dada,  el  valor  de  la  correlacion  entre  los  terminos  de  error 
en  dos  momentos  sigue  siendo  el  mismo,  sin  importar  la  distancia  entre  los  dos  periodos,  como 
resulta  evidente  de  (16.6.8).  Esto  representa  un  fuerte  contraste  con  el  esquema  de  primer  orden 
[AR(  1 )]  que  analizamos  en  el  capitulo  12,  donde  descubrimos  que  la  correlacion  entre  periodos 
decrece  con  el  tiempo.  Segunda,  la  estructura  de  correlacion  dada  en  (16.6.8)  sigue  siendo  la 
misma  para  todas  las  unidades  de  corte  transversal;  es  decir,  es  identica  para  todos  los  sujetos. 

Si  no  tomamos  en  cuenta  esta  estructura  de  correlacion  y  calculamos  (16.6.3)  mediante  MCO, 
los  estimadores  resultantes  seran  ineficientes.  El  metodo  mas  adecuado  en  este  caso  es  el  de  mi- 
nimos  cuadrados  generalizados  (MCG). 
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TAB  LA  16.5 

Variable  dependiente:  CT 

Metodo:  Panel  EMCG  (efectos  aleatorios  de  corte  transversal) 

Muestra:  1-15 
Periodos  incluidos :  15 

Secciones  de  corte  transversal  incluidas :  6 
Total  de  observaciones  de  panel  (balanceado) :  90 
Estimador  Swamy  y  Arora  de  varianzas  de  componentes 


Coef iciente 

Error  estandar 

Estadlstico  t 

Prob . 

c 

107429.3 

303966.2 

3 . 534251 

0 . 0007 

Q 

2288588 . 

88172 . 77 

25 . 95572 

0 . 0000 

PF 

1 . 123591 

0 . 083298 

13.48877 

0 . 0000 

LF 

-3084994 . 

584373.2 

-5.279151 

0 . 0000 

Especif icacion  de 

efectos 

D.E. 

Rho 

Aleatorios 

de  corte  transversal 

107411.2 

0.2067 

Aleatorios 

idiosincrasicos 

210422 . 8 

0 .7933 

Empresa 

Ef ecto 

1 

1 . 000000 

-270615 . 0 

2 

2 . 000000 

-87061.32 

3 

3 . 000000 

-21338.40 

4 

4 . 000000 

187142 . 9 

5 

5 . 000000 

134488 . 9 

6 

6 . 000000 

57383 . 00 

Dentro  del  presente  contexto,  no  analizaremos  las  matematicas  de  MCG,  debido  a  su  comple- 
jidad.13  En  vista  de  que  el  software  estadlstico  mas  moderno  cuenta  ya  con  rutinas  para  estimar 
los  MCE  (asi  como  los  MEF),  solo  presentaremos  los  resultados  del  ejemplo  ilustrativo.  Pero 
antes  de  hacerlo,  conviene  notar  que  (16.4.2)  se  puede  ampliar  con  facilidad  a  fin  de  incluir  un 
componente  de  error  aleatorio  para  tomar  en  cuenta  la  variacion  en  el  tiempo  (vease  el  ejercicio 
16.6). 

Los  resultados  de  la  estimacion  del  MCE  de  la  funcion  de  costo  de  las  aerollneas  se  presentan 
en  la  tabla  16.5. 

Observe  estas  caracterlsticas  del  MEFA.  El  valor  (promedio)  del  intercepto  es  de  107  429.3. 
Los  valores  (diferenciales)  del  intercepto  de  las  seis  entidades  se  presentan  al  final  de  los  resulta¬ 
dos  de  la  regresion.  Por  ejemplo,  la  empresa  niimero  1  tiene  un  valor  de  intercepto  que  es  270  615 
unidades  menor  que  el  valor  del  intercepto  comun  de  107  429.3;  el  valor  real  del  intercepto  de 
esta  aerolinea  es  entonces  —163  185.7.  Por  otro  lado,  el  valor  del  intercepto  de  la  empresa  nu- 
mero  6  es  57  383  unidades  mayor  que  el  valor  del  intercepto  comun;  el  valor  real  del  intercepto  de 
esta  aerolinea  es  (107  429.3  +  57  383),  o  164  812.3.  Los  valores  de  los  interceptos  de  las  demas 
aerollneas  se  derivan  de  modo  similar.  Sin  embargo,  debe  senalarse  que  si  se  suman  los  valores 
(diferenciales)  de  los  interceptos  de  las  seis  aerollneas,  la  suma  es  0,  como  debe  ser  (<',por  que?). 

Si  compara  los  resultados  de  las  regresiones  de  efectos  fijos  y  efectos  aleatorios,  observara 
diferencias  considerables  entre  los  dos.  La  pregunta  importante  ahora  es:  ,;,que  resultados  son 
confiables?  O,  de  otro  modo,  ^quc  modelo  debe  elegirse?  Aplicaremos  la  prueba  de  Hausman 
para  aclarar  esta  duda. 

La  hipotesis  nula  en  que  se  basa  la  prueba  de  Flausman  es  que  los  estimadores  MEF  y  MCE 
no  difieren  considerablemente.  El  estadlstico  de  prueba  desarrollado  por  Flausman  tiene  distribu- 


13  Vease  Kmenta,  op.  cit.,  pp.  625-630. 
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TABLA  16.6 


Efectos  aleatorios  correlacionados.  Prueba  de  Hausman 
Ecuacion:  Sin  titulo 

Prueba  de  efectos  aleatorios  de  corte  transversal 

Resumen  de  la 

prueba 

Estadistico 
j i  cuadrada 

gl  j i  cuadrada 

Prob . 

Aleatorios  de 

corte  transversal 

49 . 619687 

3 

0 . 0000 

Comparaciones 

de  la  prueba  de  efectos 

aleatorios  de  corte 

transversal 

Variable 

Fijos 

Aleatorios 

Var (dif . ) 

Prob . 

Q 

3319023.28 

2288587 . 95 

21587779733 . 

0 . 0000 

PF 

0 . 773071 

1 . 123591 

0 . 002532 

0 . 0000 

LF 

-3797367 .59 

-3084994 . 0 

35225469544 . 

0 . 0001 

cion  asintotica  y2.  Si  se  rechaza  la  hipotesis  nula,  la  conclusion  es  que  el  MCE  no  es  apropiado 
porque  es  probable  que  los  efectos  aleatorios  esten  correlacionados  con  una  o  mas  regresoras. 
En  este  caso,  MEF  se  prefiere  a  MCE.  En  el  ejemplo,  los  resultados  de  la  prueba  de  Hausman  se 
presentan  en  la  tabla  16.6. 

Es  claro  que  la  prueba  de  Hausman  rechaza  la  hipotesis  nula,  pues  el  valor  estimado  de  y2  para 
3  gl  es  muy  significativo;  si  la  hipotesis  nula  fuera  verdadera,  la  probabilidad  de  obtener  un  valor 
de  ji  cuadrada  de  49.62  o  mayor  seria  practicamente  cero.  Como  resultado,  rechazamos  el  MCE 
(MEFA)  en  favor  del  MEF.  A  proposito,  la  ultima  parte  de  la  tabla  precedente  compara  los  coefi- 
cientes  de  efectos  fijos  y  efectos  aleatorios  de  cada  variable,  y,  como  indica  la  ultima  columna,  en 
el  presente  ejemplo  las  diferencias  son  significativas  estadisticamente. 

Prueba  del  multiplicador  de  Lagrange  de  Breusch  y  Pagan14 

Ademas  de  la  prueba  de  Hausman,  tambien  podemos  aplicar  la  prueba  de  Breusch-Pagan  (BP)  a 
la  hipotesis  de  que  no  hay  efectos  aleatorios,  es  decir,  de  que  a 2  en  la  ecuacion  (16.6.7)  es  cero. 
Los  paquetes  de  software  como  STATA  incorporan  esta  prueba.  Segun  la  hipotesis  nula,  BP  sigue 
la  distribucion  ji  cuadrada  con  1  gl;  solo  hay  1  gl  porque  se  esta  probando  la  hipotesis  unica  de 
que  a2  —  0.  No  presentaremos  la  formula  en  que  se  basa  la  prueba  porque  es  muy  complicada. 

De  nuevo  con  el  ejemplo  de  las  aerolineas,  la  aplicacion  de  la  prueba  BP  produce  un  valor  ji 
cuadrada  de  0.61.  Con  1  gl,  el  valor  p  de  obtener  un  valor  ji  cuadrada  de  0.61  o  mayor  es  alrede- 
dor  de  43%.  Por  consiguiente,  no  rechazamos  la  hipotesis  nula.  En  otras  palabras,  el  modelo  de 
efectos  aleatorios  no  es  apropiado  en  el  presente  ejemplo.  Asi,  la  prueba  BP  refuerza  la  prueba 
de  Hausman,  con  la  que  tambien  llegamos  a  la  conclusion  de  que  el  modelo  de  efectos  aleatorios 
no  es  adecuado  para  el  ejemplo  de  las  aerolineas. 

16.7  Propiedades  de  varios  estimadores15 


Analizamos  ya  varios  metodos  para  estimar  modelos  de  regresion  (lineal)  de  panel,  a  saber:  esti¬ 
madores  agrupados,  estimadores  de  efectos  fijos  con  estimadores  de  minimos  cuadrados  con  va¬ 
riable  dicotoma  (MCVD),  estimadores  de  efectos  fijos  dentro  de  grupos,  estimadores  de  primeras 
diferencias  y  estimadores  de  efectos  aleatorios.  (,Que  propiedades  estadisticas  tienen?  Como  los 
datos  de  panel  comprenden  por  lo  general  una  gran  cantidad  de  observaciones,  nos  concentrare- 
mos  en  la  propiedad  de  consistencia  de  estos  estimadores. 


14T.  Breush  y  A.R.  Pagan,  "The  Lagrange  Multiplier  Test  and  Its  Application  to  Model  Specification  in  Econo¬ 
metrics",  Review  of  Economic  Studies,  vol.  47,  1980,  pp.  239-253. 

15  El  siguiente  analisis  se  basa  en  A.  Colin  Cameron  y  Pravin  K.  Trivedi,  Microeconometrics:  Methods  and  Appli¬ 
cations,  Cambridge  University  Press,  Cambridge,  Nueva  York,  2005,  capftulo  21. 
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Estimadores  agrupados 

En  el  supuesto  de  que  los  coeficientes  de  pendiente  son  constantes  a  traves  de  todos  los  sujetos,  si 
el  termino  de  error  de  la  ecuacion  ( 16.3. 1 )  no  esta  correlacionado  con  las  regresoras,  los  estimado¬ 
res  agrupados  son  consistentes.  Sin  embargo,  como  ya  senalamos,  es  probable  que  los  terminos  de 
error  se  correlacionen  con  el  paso  del  tiempo  para  un  sujeto  dado.  Por  consiguiente,  deben  usarse 
errores  estandar  de  panel  corregidos  para  las  pruebas  de  hipotesis.  El  lector  debe  asegurarse  de 
que  el  paquete  estadistico  empleado  tenga  esta  facilidad;  de  lo  contrario,  pueden  subestimarse  los 
errores  estandar  calculados.  Debe  subrayarse  que  si  el  modelo  de  efectos  fijos  es  apropiado  pero 
utilizamos  el  estimador  agrupado,  los  coeficientes  estimados  seran  inconsistentes. 

Estimadores  de  efectos  fijos 

Aunque  se  suponga  que  el  modelo  subyacente  es  agrupado  o  aleatorio,  los  estimadores  de  efectos 
fijos  siempre  son  consistentes. 

Estimadores  de  efectos  aleatorios 

El  modelo  de  efectos  aleatorios  es  consistente  aunque  el  verdadero  modelo  sea  el  estimador  agru¬ 
pado.  Sin  embargo,  si  el  verdadero  modelo  es  de  efectos  fijos,  el  estimador  de  efectos  aleatorios 
es  inconsistente. 

Para  demostraciones  y  mayores  detalles  sobre  estas  propiedades,  consulte  los  libros  de  texto 
de  Cameron  y  Trivedi,  Greene  y  Wooldridge  mencionados  en  las  notas. 

16.8  Modelo  de  efectos  fijos  y  modelo  de  efectos  aleatorios: 
algunos  lineamientos 


La  disyuntiva  que  enfrenta  un  investigador  es:  pque  modelo  es  mejor,  MEF  o  MCE?  La  respuesta 
gira  en  torno  del  supuesto  respecto  de  la  probable  correlation  entre  el  componente  de  error  indi¬ 
vidual,  o  especifico  de  la  unidad  de  corte  transversal,  £,-,  y  las  regresoras  X. 

Si  se  supone  que  £,■  y  las  X  no  estan  correlacionados,  el  MCE  puede  resultar  apropiado;  pero 
si  Sj  y  las  X  estan  correlacionados,  entonces  el  MEF  puede  ser  adecuado. 

El  supuesto  en  que  se  basa  el  MCE  es  que  e,  representa  una  muestra  aleatoria  de  una  poblacion 
mucho  mas  grande,  aunque  no  siempre  es  asi.  Por  ejemplo,  suponga  que  deseamos  estudiar  el 
indice  de  delincuencia  en  los  50  estados  de  Estados  Unidos.  Como  es  logico,  en  este  caso  no  se 
sostiene  el  supuesto  de  que  los  50  estados  son  una  muestra  aleatoria. 

Teniendo  en  cuenta  esta  diferencia  fundamental  en  los  dos  metodos,  (',quc  mas  podemos  decir 
respecto  de  la  eleccion  entre  el  MEF  y  el  MCE?  A  continuation  presentamos  las  observaciones 
de  Judge  et  al.,  las  cuales  pueden  resultar  de  utilidad: 16 

1 .  Si  T  (el  niimero  de  datos  de  series  de  tiempo)  es  grande  y  N  (el  numero  de  unidades  de  corte 
transversal)  es  pequeno,  es  probable  que  haya  muy  poca  diferencia  entre  los  valores  de  los 
parametros  estimados  mediante  el  MEF  y  el  MCE.  Por  tanto,  en  este  caso  la  eleccion  se  basa 
en  la  conveniencia  de  calculo.  Desde  esta  perspectiva,  parece  preferible  el  MEF. 

2.  Cuando  N  es  grande  y  T  pequeno  (es  decir,  un  panel  corto),  las  estimaciones  obtenidas  me¬ 
diante  los  dos  metodos  pueden  variar  de  manera  significativa.  Recuerde  que  en  MCE,  Pu  — 

+  £,  ,  donde  £;  es  el  componente  aleatorio  transversal,  en  tanto  que  en  MEF  se  considera  que 
Pu  es  fijo  y  no  aleatorio.  En  el  ultimo  caso,  la  inferencia  estadistica  depende  de  las  unidades 
de  corte  transversal  observadas  en  la  muestra.  Lo  anterior  resulta  adecuado  si  tenemos  la 
firme  conviction  de  que  las  unidades  individuales,  o  de  corte  transversal,  en  la  muestra  no  se 
extrajeron  de  manera  aleatoria  de  una  muestra  mayor.  En  ese  caso,  el  MEF  es  adecuado.  Sin 
embargo,  si  consideramos  que  las  unidades  de  corte  transversal  de  la  muestra  se  extrajeron  de 
modo  aleatorio,  el  MCE  es  adecuado,  pues  aqui  la  inferencia  estadistica  es  incondicional. 

3.  Si  el  componente  de  error  individual  s,  y  una  o  mas  de  las  regresoras  estan  correlacionados,  los 
estimadores  MCE  estan  sesgados,  en  tanto  que  los  obtenidos  a  partir  del  MEF  no  lo  estan. 


16  Judge  et  al.,  op.  cit.,  pp.  489-491 . 
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4.  Si  N  es  grande  y  T pequena,  y  si  los  supuestos  en  los  que  se  basa  el  MCE  son  aun  validos,  los 
estimadores  MCE  son  mas  eficientes  que  los  estimadores  MEF. 

5.  A  diferencia  del  MEF,  el  MCE  puede  estimar  los  coeficientes  de  variables  que  no  cambian  con 
el  tiempo,  como  el  genero  y  el  origen  etnico.  El  MEF  controla  las  variables  que  no  cambian 
con  el  tiempo,  pero  no  puede  estimarlas  de  manera  directa,  como  evidencian  los  modelos 
MCVD  y  de  estimadores  dentro  de  grupos.  Por  otra  parte,  MEF  controla  todas  las  variables 
invariantes  en  el  tiempo  ( /,por  que?),  mientras  que  MCE  solo  estima  las  variables  invariantes 
en  el  tiempo  que  se  introducen  explicitamente  en  el  modelo. 

Independientemente  de  la  prueba  de  Plausman,  es  importante  tener  en  cuenta  la  advertencia 
de  Johnston  y  DiNardo.  A1  decidir  entre  el  modelo  de  efectos  fijos  y  el  de  efectos  aleatorios, 
argumentan  que  “no  hay  una  regia  sencilla  que  ayude  al  investigador  a  navegar  entre  el  Escila  de 
los  efectos  fijos  y  el  Caribdis  del  error  de  medicion  y  la  selection  dinamica.  Sin  embargo,  aunque 
representan  una  mejora  respecto  de  los  datos  de  corte  transversal,  los  datos  de  panel  no  son  una 
cura  milagrosa  para  todos  los  problemas  de  los  econometristas”.17 

16.9  Regresiones  con  datos  de  panel:  algunos  comentarios 
para  concluir 


Como  mencionamos  al  principio,  el  tema  de  la  creation  de  modelos  con  datos  de  panel  es  vasto 
y  complejo.  Apenas  tocamos  la  superficie.  Entre  los  puntos  que  no  hemos  analizado  destacan  los 
siguientes: 

1 .  Pruebas  de  hipotesis  con  datos  de  panel. 

2.  Fleteroscedasticidad  y  autocorrelation  en  MCE. 

3.  Datos  de  panel  desbalanceado. 

4.  Modelos  dinamicos  con  datos  de  panel  en  los  que  el  (los)  valor(es)  rezagado(s)  de  la  regresada 
aparecen  como  una  variable  explicativa. 

5.  Ecuaciones  simultaneas  que  se  relacionan  con  datos  de  panel. 

6.  Variables  dependientes  cualitativas  y  datos  de  panel. 

7.  Raices  unitarias  en  datos  de  panel  (en  relation  con  las  raices  unitarias,  vease  el  capitulo  21). 

Uno  o  mas  de  estos  temas  se  encuentran  en  las  referencias  citadas  en  este  capitulo,  por  lo  que 
se  exhorta  al  lector  a  que  las  consulte  a  fin  de  aprender  mas  sobre  dichos  temas.  Las  referencias 
tambien  citan  diversos  estudios  empiricos  en  diversas  areas  de  negocios  y  economicas  mediante 
modelos  de  regresion  con  datos  de  panel.  Se  aconseja  al  principiante  que  lea  algunas  de  esas 
aplicaciones  con  el  fin  de  darse  una  idea  de  la  forma  en  que  los  investigadores  han  puesto  en 
practica  dichos  modelos.18 

16.10  Algunos  ejemplos  ilustrativos 


EJEMPLO  16.1 

Productividad  e  in¬ 
version  publica 


Para  averiguar  por  que  disminuye  la  productividad  y  que  funcion  desempena  la  inversion  pu¬ 
blica,  Alicia  Munnell  estudio  datos  de  productividad  en  los  48  estados  del  territorio  continental 
de  Estados  Unidos  durante  1  7  anos,  de  1 970  a  1 986,  para  un  total  de  81 6  observaciones.19  Con 
estos  datos  estimamos  la  regresion  agrupada  de  la  tabla  16.7.  Observe  que  esta  regresion  no 
toma  en  cuenta  la  naturaleza  de  panel  de  los  datos. 

La  variable  dependiente  de  este  modelo  es  PEB  (producto  estatal  bruto),  y  las  variables  expli- 
cativas  son  CAPPRIV  (capital  privado),  CAPPUB  (capital  publico),  ACUA  (capital  del  servicio  de 
agua)  y  DESEMP  (tasa  de  desempleo).  Nota:  L  representa  el  logaritmo  natural.  ( continue l) 


1 7  Jack  Johnston  y  John  DiNardo,  Econometric  Methods,  4a.  ed.,  McGraw-Hill,  1997,  p.  403. 

18  Para  mas  detalles  y  aplicaciones  concretas,  vease  Paul  D.  Allison,  Fixed  Effects  Regression  Methods  for  Longi¬ 
tudinal  Data,  Using  5/tS,  SAS  Institute,  Cary,  Carolina  del  Norte,  2005. 

19  Los  datos  de  Munnell  se  encuentran  en  www.aw-bc.com/murray. 
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EJEMPLO  16.1  TAB  LA  16.7 

(continuation)  Variable  dependiente :  LPEB 

Metodo:  Minimos  cuadrados  de  panel 

Muestra:  1970-1986 
Periodos  incluidos:  17 

Secciones  de  corte  transversal  incluidas:  48 
Total  de  observaciones  de  panel  (balanceado) :  816 


Coef iciente 

Error  estandar  Estadistico 

t 

Prob . 

c 

0 . 907604 

0 . 091328 

9 . 937854 

0 . 0000 

LCAPPRIV 

0.376011 

0 . 027753 

13 . 54847 

0 . 0000 

LCAPPUB 

0 .351478 

0 . 016162 

21 . 74758 

0 . 0000 

LAGUA 

0.312959 

0 . 018739 

16.70062 

0 . 0000 

LDESEMP 

-0 . 069886 

0 . 015092 

-4.630528 

0 . 0000 

R  cuadrada 

0 . 981624 

Media  de  la  variable  dependiente 

10 . 50885 

R  cuadrada  ajustada 

0 . 981533 

Desviacion  estandar  de 

la 

Error  estandar  de 

la  regresion 

0.138765 

variable  dependiente 

1.021132 

Suma  de  cuadrados 

residual 

15.61630 

Estadistico  F 

10830.51 

Log  verosimilitud 

456.2346 

Prob.  (estadistico  F) 

0 . 000000 

Estadistico  Durbin-Watson 

0 . 063016 

Todas  las  variables  tienen  los  signos  esperados  y  todas  son  estadfsticamente  significativas, 
tanto  en  lo  individual  como  colectivamente,  si  se  asumen  validos  todos  los  supuestos  del  modelo 
clasico  de  regresion  lineal. 

Para  tomar  en  cuenta  la  dimension  de  panel  de  los  datos,  en  la  tabla  16.8  se  estimo  un 
modelo  de  efectos  fijos  con  47  variables  dicotomas  para  los  48  estados  a  fin  de  evitar  caer  en 


TABLA  16.8 

Variable  dependiente :  LPEB 
Metodo:  Minimos  cuadrados  de  panel 

Muestra:  1970-1986 
Periodos  incluidos:  17 

Unidades  de  corte  transversal  incluidas:  48 
Total  de  observaciones  de  panel  (balanceado) :  816 


Coef iciente 

Error  estandar  Estadistico 

t 

Prob . 

C 

-0 . 033235 

0.208648 

-0 . 159286 

0 . 8735 

LCAPPRIV 

0.267096 

0 . 037015 

7.215864 

0 . 0000 

LCAPPUB 

0 . 714094 

0 . 026520 

26 . 92636 

0 . 0000 

LAGUA 

0 . 088272 

0 . 021581 

4 . 090291 

0 . 0000 

LDESEMP 

-0 . 138854 

0 . 007851 

-17 . 68611 

0 . 0000 

Especif icacion 

de  efectos 

Fijos  de  corte 

transversal  (variables  dicotomas) 

R  cuadrada 

0 . 997634 

Media  de  la  variable  dependiente 

10 . 50885 

R  cuadrada  ajustada 

0 . 997476 

Desviacion  estandar  de 

la 

Error  estandar 

de 

la  regresion 

0 . 051303 

variable  dependiente 

1.021132 

Suma  de  cuadrados 

residual 

2 . 010854 

Estadistico  F 

6315 . 897 

Log  verosimilitud 

1292.535 

Prob.  (estadistico  F ) 

0 . 000000 

Estadistico  Durbin-Watson 

0.520682 
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EJEMPLO  16.1  TABLA  16.9 

(continuation)  Variable  dependiente:  LPEB 

Metodo :  Panel  EMCG  (efectos  aleatorios  de  corte  transversal) 

Muestra:  1970-1986 
Periodos  incluidos :  17 

Unidades  de  corte  transversal  incluidas :  48 
Total  de  observaciones  de  panel  (balanceado) :  816 
Estimador  Swamy  y  Arora  de  varianzas  de  componentes 


Coeficiente 

Error  estandar  Estadistico  t 

Prob . 

c 

-0 . 046176 

0 . 161637 

-0.285680 

0 . 7752 

LCAPPRIV 

0.313980 

0 . 029740 

10 . 55760 

0 . 0000 

LCAPPUB 

0.641926 

0 . 023330 

27 . 51514 

0 . 0000 

LAGUA 

0 . 130768 

0 . 020281 

6.447875 

0 . 0000 

LDESEMP 

-0.139820 

0 . 007442 

-18.78669 

0 . 0000 

Especif icacion  de  efectos 

D.E 

Rho 

Aleatorios 

de  corte  transversal 

0 . 130128 

0 . 8655 

Aleatorios 

idiosincrasicos 

0 . 051303 

0 . 1345 

la  trampa  de  las  variables  dicotomas.  Para  ahorrar  espacio,  solo  presentamos  los  coeficientes 
estimados  de  la  regresion  y  no  los  coeficientes  de  cada  variable  dicotoma.  Sin  embargo,  debe 
anadirse  que  las  47  variables  dicotomas  estatales  fueron  muy  significativas  estadfsticamente  en 
lo  individual. 

Se  observan  diferencias  considerables  entre  la  regresion  agrupada  y  la  regresion  de  efectos 
fijos,  lo  que  despierta  dudas  sobre  los  resultados  de  la  regresion  agrupada. 

Para  ver  si  el  modelo  de  efectos  aleatorios  es  mas  apropiado  en  este  caso,  en  la  tabla  16.9 
presentamos  los  resultados  del  modelo  de  regresion  de  efectos  aleatorios. 

Para  elegir  entre  los  dos  modelos  aplicamos  la  prueba  de  Hausman,  que  arrojo  los  resultados 
de  la  tabla  1 6.1 0. 

Como  el  valor  estimado  ji  cuadrada  es  muy  significativo  estadfsticamente,  rechazamos  la 
hipotesis  de  que  no  hay  diferencia  significativa  en  los  coeficientes  estimados  de  los  dos  mode¬ 
los.  Al  parecer,  existe  correlacion  entre  el  termino  de  error  y  una  o  mas  de  las  regresoras.  Por 
tanto,  podemos  rechazar  el  modelo  de  efectos  aleatorios  y  elegir  el  modelo  de  efectos  fijos.  Sin 
embargo,  hay  que  tener  en  cuenta,  como  muestra  la  ultima  parte  de  la  tabla  16.10,  que  no 
todos  los  coeficientes  difieren  en  los  dos  modelos.  Por  ejemplo,  no  existe  diferencia  significativa 
estadfsticamente  en  los  valores  del  coeficiente  de  EDESEMP  en  los  dos  modelos. 


TABLA  16.10 


Resumen  de 

la 

prueba 

Estadistico 
j i  cuadrada 

gl  j i  cuadrada 

Prob . 

Aleatorios 

de 

corte 

transversal 

42.458353 

4 

0 . 0000 

Comparaciones 

Variable 

de  la 

prueba  de  efectos 

Fijos 

aleatorios  de 

Aleatorios 

corte  transversal : 

Var (dif  .  ) 

Prob . 

LCAPPRIV 

0 .267096 

0 .313980 

0 . 000486 

0 . 0334 

LCAPPUB 

0 . 714094 

0 . 641926 

0 . 000159 

0 . 0000 

LAGUA 

0 . 088272 

0 . 130768 

0 . 000054 

0 . 0000 

LDESEMP 

-0 . 138854 

-0 . 139820 

0 . 000006 

0 .6993 
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En  su  artfculo,  Maddala  et  al.  consideraron  la  demanda  residencial  de  electricidad  y  gas  natural 
en  49  estados  de  Estados  Unidos  de  1970  a  1990;  Elawai  no  se  incluyo  en  el  analisis.20  Recopi- 
laron  datos  sobre  diversas  variables;  estos  datos  se  encuentran  en  el  sitio  web  del  libro.  En  este 
ejemplo  solo  consideraremos  la  demanda  residencial  de  electricidad.  Primero  presentamos  los 
resultados  con  base  en  la  estimacion  de  efectos  fijos  (tabla  16.1 1)  y  despues  la  estimacion  de 
efectos  aleatorios  (tabla  16.12),  seguidas  de  una  comparacion  de  los  dos  modelos. 


Variable  dependiente:  Log(CREPC) 

Metodo:  Minimos  cuadrados  de  panel 

Muestra:  1971-1990 
Periodos  incluidos:  20 

Unidades  de  corte  transversal  incluidas:  49 
Total  de  observaciones  de  panel  (balanceado) :  980 


Coef iciente 

Error  estandar 

Estadistico  t 

Prob . 

C  -12.55760 

Log(PRE)  -0.628967 

Log ( IDRPC)  1.062439 

0.363436 

0 . 029089 

0 . 040280 

-34 . 55249 

-21.62236 

26.37663 

0 . 0000 

0 . 0000 

0 . 0000 

Especif icacion 

de  efectos 

Fijos  de  corte  transversal  (variables  dicotomas) 

R  cuadrada 

R  cuadrada  ajustada 

Error  estandar  de  la  regresion 
Suma  de  cuadrados  residual 

Log  verosimilitud 

Estadistico  F 

Prob.  (estadistico  F) 

0 . 757600 

0 . 744553 

0 . 159816 

23.72762 

432.6876 

58 . 07007 

0 . 000000 

Media  de  la  variable  dependiente 
Desviacion  estandar  de  la 
variable  dependiente 

Criterio  de  informacion  de  Akaike 

Criterio  de  Schwarz 

Criterio  de  Hannan-Quinn 
Estadistico  Durbin-Watson 

-4.536187 

0.316205 

-0 . 778954 

-0.524602 

-0 .682188 

0.404314 

donde  Log(CREPC)  =  logaritmo  natural  del  consumo  residencial  de  electricidad  per  capita  (mi- 
llones  de  btu  =  unidades  termicas  britanicas),  Log(PRE)  =  logaritmo  natural  del  precio  real  de 
la  electricidad  en  1987  y  Log(IDRPC)  =  logaritmo  natural  del  ingreso  disponible  real  per  capita 
en  1987. 

Como  se  trata  de  un  modelo  de  doble  logaritmo,  los  coeficientes  estimados  de  pendiente 
representan  elasticidades.  Por  tanto,  cuando  todos  los  demas  factores  permanecen  constantes, 
si  el  ingreso  real  per  capita  aumenta  1  %,  la  media  del  consumo  de  electricidad  aumenta  casi  1  %. 
Asimismo,  cuando  todo  lo  demas  permanece  constante,  si  el  precio  real  de  la  electricidad  au¬ 
menta  1  %,  el  consumo  promedio  de  electricidad  disminuye  alrededor  de  0.6  por  ciento.  Todas 
las  elasticidades  estimadas  son  significativas  estadfsticamente. 

Los  resultados  del  modelo  de  error  aleatorio  se  presentan  en  la  tabla  1 6.1 2. 

Al  parecer,  no  hay  mucha  diferencia  entre  los  dos  modelos.  Pero  con  la  prueba  de  Hausman 
podemos  averiguar  si  esto  es  verdad.  Los  resultados  de  la  prueba  aparecen  en  la  tabla  1 6.1  3. 

Aunque  los  coeficientes  de  los  dos  modelos  de  las  tablas  1 6.1 1  y  1 6.1 2  dan  la  impresion  de 
ser  muy  parecidos,  la  prueba  de  Hausman  demuestra  que  no  es  asf.  El  valor  ji  cuadrada  es  muy 
significativo  estadfsticamente.  Por  tanto,  elegimos  el  modelo  de  efectos  fijos  y  no  el  de  efectos 


EJEMPLO  16.2 

Demanda  de  elec¬ 
tricidad  en  Estados 
Unidos 


TABLA  16.11 


20  G.S.  Maddala,  Robert  P.  Trost,  Hongyi  Li  y  Frederick  Joutz,  "Estimation  of  Short-run  and  Long-run  Elastici¬ 
ties  of  Demand  from  Panel  Data  Using  Shrikdage  Estimators",  Journal  of  Business  and  Economic  Statistics,  vol. 
1 5,  num.  1 ,  enero  de  1 997,  pp.  90-1 00. 
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EJEMPLO  16.2  TABLA  16.12 

(continuation)  Variable  dependiente:  Log(CREPC) 

Metodo:  Panel  EMCG  (efectos  aleatorios  de  corte  transversal) 

Muestra:  1971-1990 
Periodos  incluidos:  20 

Unidades  de  corte  transversal  incluidas:  49 
Total  de  observaciones  de  panel  (balanceado) :  980 
Estimador  Swamy  y  Arora  de  varianzas  de  componentes 


Coef iciente 

Error  estandar  Estadistico  t 

Prob . 

c 

-11.68536 

0.353285 

-33.07631 

0 . 0000 

Log (PRE) 

-0 . 665570 

0 . 028088 

-23.69612 

0 . 0000 

Log (IDRPC) 

0 . 980877 

0 . 039257 

24 . 98617 

0 .0000 

Especif icacion 

de  efectos 

D.E 

Rho 

Aleatorios 

de  corte 

transversal 

0 . 123560 

0.3741 

Aleatorios 

idiosincrasicos 

0 . 159816 

0 . 6259 

Estadisticas 

ponderadas 

R  cuadrada 

0.462591 

Media  de  la  variable  dependiente 

-1.260296 

R  cuadrada 

ajustada 

0.461491 

Desviacion  estandar  de  la 

Error  estandar  de  la  regresion 

0.168096 

variable  dependiente 

0.229066 

Estadistico  F 

420.4906 

Suma  de  cuadrados  residual 

27.60641 

Prob.  (estadistico 

F) 

0 . 000000 

Estadistico  Durbin-Watson 

0 . 345453 

Estadisticas  sin  ponderar 

R  cuadrada 

0.267681 

Media  de  la  variable  dependiente 

-4 . 536187 

Suma  de  cuadrados  residual 

71 . 68384 

Estadistico  Durbin-Watson 

0.133039 

TABLA  16.13 


Efectos  aleatorios  correlacionados .  Prueba  de  Hausman 

Ecuacion:  Sin  titulo 

Prueba  de  efectos  aleatorios  de  corte  transversal 

Estadistico 

Resumen  de  la 

prueba 

j i  cuadrada 

gl  j i  cuadrada 

Prob . 

Aleatorios  de 

corte  transversal 

105 . 865216 

2 

0 . 0000 

Comparaciones 

de  la  prueba  de  efectos 

aleatorios  de  corte 

transversal : 

Variable 

Fi  j  os 

Aleatorios 

Var (dif . ) 

Prob . 

Log (PRE) 

-0 . 628967 

-0 . 665570 

0 . 000057 

0 . 0000 

Log (IDRPC) 

1 . 062439 

0 . 980877 

0 . 000081 

0 . 0000 

aleatorios.  Este  ejemplo  destaca  el  punto  importante  de  que  cuando  el  tamario  de  la  muestra  es 
grande,  en  este  caso  980  observaciones,  hasta  las  diferencias  mas  pequenas  en  los  coeficientes 
estimados  de  los  dos  modelos  pueden  ser  estadfsticamente  significativas.  En  consecuencia,  los  co¬ 
eficientes  de  la  variable  Log(PRE)  de  los  dos  modelos  se  ven  razonablemente  parecidos,  pero 
estadfsticamente  no  lo  son. 
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EJEMPLO  16.3 

Consumo  de  cer- 
veza,  ingreso  e  im¬ 
plies  to  sobre  ventas 
de  cerveza 


TABLA  16.14 


Para  evaluar  el  efecto  del  impuesto  sobre  ventas  de  cerveza  en  el  consumo  de  esta  bebida,  Philip 
Cook  investigo  la  relacion  entre  los  dos  despues  de  tener  en  cuenta  el  efecto  del  ingreso.21  Los 
datos  corresponden  a  los  50  estados  de  Estados  Unidos  y  Washington,  D.C.,  de  1 975  a  2000.  En 
este  ejemplo  estudiamos  la  relacion  de  las  ventas  de  cerveza  per  capita  y  la  tasa  impositiva  y  el 
ingreso,  todo  en  el  ambito  estatal.  Se  presentan  los  resultados  de  los  modelos  de  MCO  agrupa- 
dos,  efectos  fijos  y  efectos  aleatorios  en  forma  tabular  en  la  tabla  1 6.1 4.  La  variable  dependiente 
es  ventas  de  cerveza  per  capita. 

Estos  resultados  son  interesantes.  De  acuerdo  con  la  teorla  economica,  se  espera  una  relacion 
negativa  entre  el  consumo  de  cerveza  y  los  impuestos  sobre  ventas  de  cerveza,  que  es  precisa- 
mente  lo  que  ocurre  en  los  tres  modelos.  El  efecto  negativo  del  ingreso  sobre  el  consumo  de 
cerveza  indica  que  la  cerveza  es  un  bien  inferior,  es  decir,  un  producto  cuya  demanda  decrece 
a  medida  que  el  ingreso  del  consumidor  aumenta.  Tal  vez  cuando  el  ingreso  aumenta,  los  con- 
sumidores  prefieren  champaha. 

Para  los  efectos  que  aquf  interesan,  lo  importante  es  la  diferencia  entre  los  coeficientes  esti- 
mados.  En  apariencia,  no  hay  mucha  diferencia  entre  los  coeficientes  estimados  con  el  MEF  y 
MCE.  De  hecho,  la  prueba  de  Hausman  produce  un  valor  ji  cuadrada  de  3.4,  que  no  es  signifi¬ 
cative  para  2  gl  en  el  nivel  de  5%;  el  valor  p  es  0.1  783. 

Sin  embargo,  los  resultados  basados  en  MCO  son  muy  diferentes.  El  coeficiente  de  la  variable 
impuesto  sobre  ventas  de  cerveza,  en  valor  absoluto,  es  mucho  mas  pequeho  del  que  se  obtiene 
con  el  MEF  o  con  el  MCE.  La  variable  ingreso,  aunque  tiene  signo  negativo,  no  es  estadfstica- 
mente  significativa,  mientras  que  los  otros  dos  modelos  muestran  que  es  muy  significativa. 

Este  ejemplo  revela  de  manera  muy  vfvida  lo  que  puede  ocurrir  si  descuidamos  la  estructura 
de  panel  de  los  datos  y  estimamos  una  regresion  agrupada. 


Variable 

MCO 

MEF 

MEFA 

Constante 

1.4192 

1.7617 

1.7542 

(24.37) 

(52.23) 

(39.22) 

Impuesto  s/ventas  cerveza 

-0.0067 

-0.0183 

-0.0181 

(-2.13) 

(-9.67) 

(-9.69) 

Ingreso 

-3.54(e-6) 

-0.000020 

-0.000019 

(-1.12) 

(-9.17) 

(-9.10) 

R2 

0.0062 

0.0052 

0.0052 

Notas:  Las  cifras  entre  parentesis  son  las  razones  t  estimadas.  — 3.54(e  6)  = 

-0.00000354. 

Resumen  y 
conclusiones 


1.  Los  modelos  de  regresion  de  panel  se  basan  en  los  datos  de  panel,  los  cuales  consisten  en 
observaciones  sobre  las  mismas  unidades  de  corte  transversal,  o  individuales,  a  lo  largo  de 
varios  periodos. 

2.  Existen  diversas  ventajas  en  los  datos  de  panel.  Primera,  incrementan  de  modo  considerable 
el  tamano  de  la  muestra.  Segunda,  al  estudiar  observaciones  de  corte  transversal  repetidas, 
los  datos  de  panel  resultan  mas  adecuados  para  estudiar  las  dinamicas  del  cambio.  Tercera,  los 
datos  de  panel  permiten  estudiar  modelos  de  comportamiento  mas  complejos. 

3.  A  pesar  de  sus  ventajas  sustanciales,  los  datos  de  panel  plantean  diversos  problemas  de  esti- 
macion  y  de  inferencia.  Como  esos  datos  implican  dimensiones  de  corte  transversal  y  tem- 
porales,  necesitan  abordarse  los  problemas  que  plagan  a  los  datos  de  corte  transversal  (por 
ejemplo,  la  heteroscedasticidad)  y  los  datos  de  series  de  tiempo  (por  ejemplo,  la  autocorre- 
lacion).  Ademas  hay  otros  problemas,  como  la  correlacion  cruzada  en  unidades  individuales 
en  el  mismo  punto  en  el  tiempo. 


21  Estos  datos  provienen  del  sitio  web  de  Michael  P.  Murphy,  Econometrics:  A  Modern  Introduction,  Pearson/ 
Addison  Wesley,  Boston,  2006,  pero  los  datos  originales  fueron  recopilados  por  Philip  Cook  para  su  libro 
Paying  the  Tab:  The  Costs  and  Benefits  of  Alcohol  Control,  Princeton  University  Press,  Princeton,  Nueva  Jersey, 


2007. 


Capftulo  1 6  Modelos  de  regresion  con  datos  de panel  613 


EJERCICIOS 


4.  Hay  varias  tecnicas  de  estimation  para  abordar  uno  o  mas  de  estos  problemas.  Las  dos  mas 
importantes  son:  1)  el  modelo  de  efectos  fijos  (MEF)  y  2)  el  modelo  de  efectos  aleatorios 
(MEFA)  o  modelo  de  componentes  del  error  (MCE). 

5.  En  el  MEF  se  permite  que  el  intercepto  en  el  modelo  de  regresion  difiera  entre  individuos,  a 
manera  de  reconocimiento  de  que  cada  unidad  individual,  o  transversal,  pueda  tener  algunas 
caracteristicas  especiales  por  si  mismas.  A  fin  de  tomar  en  cuenta  los  distintos  interceptos, 
se  pueden  utilizar  variables  dicotomas.  El  MEF  que  emplea  esas  variables  se  conoce  como 
modelo  de  minimos  cuadrados  con  variable  dicotoma  (MCVD).  El  MEF  resulta  apropiado 
en  situaciones  donde  el  intercepto  especifico  individual  puede  estar  correlacionado  con  una 
o  mas  regresoras.  Una  desventaja  del  modelo  MCVD  es  que  consume  muchos  grados  de 
libertad  cuando  el  numero  de  unidades  de  corte  transversal,  N,  es  muy  grande,  en  cuyo  caso 
se  tendran  que  introducir  N  variables  dicotomas  (pero  habra  que  suprimir  el  termino  del 
intercepto  comun). 

6.  Una  alternativa  al  MEF  es  el  MCE.  En  este  ultimo,  se  supone  que  el  intercepto  de  una  unidad 
individual  se  extrae  de  manera  aleatoria  de  una  poblacion  mucho  mas  grande  con  un  valor 
medio  constante.  Asi,  el  intercepto  individual  se  expresa  como  una  desviacion  respecto  de  este 
valor  medio  constante.  Una  ventaja  del  MCE  respecto  del  MEF  consiste  en  la  economia  de  los 
grados  de  libertad,  en  vista  de  que  no  se  tiene  que  calcular  N  interceptos  de  corte  transversal. 
Solo  se  requiere  estimar  el  valor  medio  del  intercepto  y  su  varianza.  El  MCE  es  adecuado  para 
situaciones  en  las  que  el  intercepto  (aleatorio)  de  cada  unidad  de  corte  transversal  no  esta  co¬ 
rrelacionado  con  las  regresoras.  Otra  ventaja  del  MCE  es  que  se  pueden  introducir  variables, 
como  genero,  religion  y  origen  etnico,  que  se  mantienen  constantes  en  cualquier  sujeto  dado. 
En  el  MEF  no  podemos  hacer  eso,  porque  todas  esas  variables  son  colineales  con  el  intercepto 
especifico  del  sujeto.  Ademas,  si  usamos  el  estimador  dentro  de  grupos  o  el  estimador  de  pri- 
meras  diferencias,  se  borrara  por  completo  toda  esa  invariabilidad  con  el  tiempo. 

7.  Con  la  prueba  de  Hausman  se  decide  entre  el  MEF  y  el  MCE.  Tambien  se  puede  aplicar  la 
prueba  de  Breusch-Pagan  para  ver  si  el  MCE  es  apropiado. 

8.  A  pesar  de  su  creciente  popularidad  en  la  investigation  aplicada,  y  no  obstante  la  creciente 
disponibilidad  de  esos  datos,  las  regresiones  con  datos  de  panel  tal  vez  no  sean  adecuadas 
para  todas  las  situaciones.  Se  tiene  que  echar  mano  de  un  criterio  practico  en  cada  caso. 

9.  Existen  algunos  problemas  especificos  con  los  datos  de  panel  que  deben  tenerse  presentes.  El 
mas  grave  es  el  problema  de  desgaste,  en  el  que,  por  una  razon  u  otra,  los  sujetos  del  panel 
se  retiran  a  medida  que  pasa  el  tiempo,  de  modo  que  en  las  encuestas  subsiguientes  (o  de 
corte  transversal)  hay  menos  sujetos  originales  en  el  panel.  Aunque  no  haya  desgaste,  con  el 
transcurso  del  tiempo  los  sujetos  pueden  negarse  o  no  estar  dispuestos  a  responder  algunas 
preguntas. 


Preguntas 

16.1.  ^Cuales  son  las  caracteristicas  especiales  de  a)  los  datos  de  corte  transversal,  b)  las  series 
de  tiempo  y  c)  los  datos  de  panel? 

16.2.  ^Que  se  quiere  dar  a  entender  con  modelo  de  efectos  fijos  (MEF)?  Como  los  datos  de 
panel  presentan  las  dos  dimensiones  de  tiempo  y  espacio,  /,como  es  que  el  MEF  permite 
ambas  dimensiones? 

16.3.  (',Quc  se  quiere  dar  a  entender  con  modelo  con  componentes  del  error  (MCE)?  ^En  que 
difiere  del  MEF?  £ Cuando  resulta  apropiado  el  MCE,  y  cuando  el  MEF? 

16.4.  /.Hay  diferencia  entre  los  modelos  de  minimos  cuadrados  con  variables  dicotomas 
(MCVD),  estimados  dentro  de  grupos  y  primeras  diferencias? 

16.5.  ^Cuando  resultan  inapropiados  los  modelos  de  regresion  con  datos  de  panel?  Proporcione 
ejemplos. 

16.6.  ^Como  ampliaria  el  modelo  (16.4.2)  para  incluir  un  componente  del  error  en  el  tiempo? 
Escriba  el  modelo  explicitamente. 
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16.7.  Consulte  el  ejemplo  de  los  huevos  y  sus  precios  de  la  tabla  1.1.  (',Quc  modelo  resultarla 
apropiado  en  este  caso,  el  MEF  o  el  MCE?  ^Por  que? 

16.8.  Para  los  datos  de  inversion  presentados  en  la  tabla  1.2,  ^que  modelo  debe  elegirse,  MEF 
o  MEFA?  ^Por  que? 

16.9.  Con  base  en  el  Michigan  Income  Dynamics  Study  (Estudio  Michigan  de  dinamica  del  in- 
greso),  Flausman  trato  de  estimar  un  modelo  para  salarios,  o  ganancias,  con  una  muestra 
de  629  egresados  del  nivel  medio  superior,  a  quienes  se  les  dio  un  seguimiento  durante 
seis  anos,  lo  cual  dio  como  resultado  un  total  de  3  774  observaciones.  En  este  estudio,  la 
variable  dependiente  fue  el  logaritmo  del  salario  y  las  variables  explicativas  fueron  edad 
(dividida  en  varios  grupos  de  edad),  desempleo  en  el  ano  anterior,  pobreza  sanitaria  en  el 
ano  anterior,  autoempleo,  region  de  residencia  (Sur  =  1 ;  0  en  otro  caso),  area  de  residen- 
cia  (rural  =  1;  0  en  otro  caso).  Flausman  utilizo  el  MEF  y  el  MCE.  Estos  resultados  se 
proporcionan  en  la  tabla  16.15  (se  dan  los  errores  estandar  entre  parentesis). 


TABLA  16.15 

Ecuaciones  de  salarios 
(variable  dependiente: 
log  salario) 

Fuente:  Reproducido  de  Cheng 
Hsiao,  Analysis  of  Panel  Data, 
Cambridge  University  Press, 
1986,  p.  42.  Fuente  original:  J.  A. 
Hausman,  “Specification  Tests  in 
Econometrics”,  Econometrica, 
vol.  46,  1978,  pp.  1251-1271. 


Variable 

Efectos  fijos 

Efectos  aleatorios 

1.  Edad  1  (20-35) 

0.0557  (0.0042) 

0.0393  (0.0033) 

2.  Edad  2  (35-45) 

0.0351  (0.0051) 

0.0092  (0.0036) 

3.  Edad  3  (45-55) 

0.0209  (0.0055) 

-0.0007  (0.0042) 

4.  Edad  4  (55-65) 

0.0209  (0.0078) 

-0.0097  (0.0060) 

5.  Edad  5  (65-  ) 

-0.0171  (0.0155) 

-0.0423  (0.0121) 

6.  Desempleo  en  el  ano  anterior 

-0.0042  (0.0153) 

-0.0277  (0.0151) 

7.  Pobreza  sanitaria  en  el  ano  anterior 

-0.0204  (0.0221) 

-0.0250  (0.0215) 

8.  Autoempleo 

-0.2190  (0.0297) 

-0.2670  (0.0263) 

9.  Sur 

-0.1569  (0.0656) 

-0.0324  (0.0333) 

10.  Rural 

-0.0101  (0.0317) 

-0.1215  (0.0237) 

1 1 .  Constante 

— 

0.8499  (0.0433) 

S2 

0.0567 

0.0694 

Grados  de  libertad 

3  135 

3  763 

a)  ('.Los  resultados  tienen  sentido  economico? 

b)  ^Existe  una  gran  diferencia  en  los  resultados  producidos  por  los  dos  modelos?  Si  asi 
fuera,  (',quc  explicaria  tales  diferencias? 

c)  Con  base  en  los  datos  de  la  tabla,  /,que  modelo,  si  acaso  existiera  uno,  elegiria? 

Ejercicios  empfricos 

16.10.  Consulte  el  ejemplo  de  las  aerolineas  analizado  en  el  texto.  En  lugar  del  modelo  lineal 

presentado  en  la  ecuacion  (16.4.2),  estime  un  modelo  de  regresion  log-lineal  y  compare 

los  resultados  que  se  proporcionan  en  la  tabla  16.2 

16.11.  Consulte  los  datos  de  la  tabla  1.1. 

a)  Sea  Y  —  huevos  producidos  (en  millones)  y  X  =  precio  de  los  huevos  (centavos  por 
docena).  Calcule  el  modelo  para  los  anos  1990  y  1991  por  separado. 

b )  Agrupe  las  observaciones  para  los  dos  anos  y  estime  la  regresion  agrupada.  ^Que 
suposiciones  hace  al  agrupar  los  datos? 

c)  Utilice  el  modelo  de  efectos  fijos  con  la  distincion  entre  los  dos  anos  y  presente  los 
resultados  de  la  regresion. 

d)  ^Puede  utilizar  el  modelo  de  efectos  fijos  si  hace  la  distincion  de  los  50  estados?  <(Por 
que? 

e)  /  Tiene  sentido  distinguir  el  efecto  por  estado  y  el  efecto  por  ano?  De  ser  asi,  /.cuantas 
variables  dicotomas  tendria  que  introducir? 
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/)  ^E1  modelo  de  componentes  del  error  seria  apropiado  como  modelo  para  la  produc- 
cion  de  huevos?  <',Por  que?  Vea  si  puede  estimar  dicho  modelo  con  EViews,  por  ejem- 
plo. 

16. 12.  Continue  con  el  ejercicio  16. 1 1.  Antes  de  decidir  hacer  la  regresion  agrupada,  quiza  desee 
averiguar  si  los  datos  son  “agrupables”.  Para  este  proposito,  se  decide  por  la  prueba  de 
Chow  analizada  en  el  capitulo  8.  Muestre  los  calculos  necesarios  y  determine  si  la  regre¬ 
sion  agrupada  tiene  sentido. 

16.13.  Use  los  datos  de  inversion  de  la  tabla  1.6. 

a )  Estime  la  funcion  de  inversion  Grunfeld  para  cada  empresa  de  manera  individual. 

b)  Ahora  agrupe  los  datos  de  todas  las  empresas  y  estime  la  funcion  de  inversion  Grun¬ 
feld  por  MCO. 

c)  Estime  la  funcion  de  inversion  con  MCVD  y  compare  los  resultados  con  la  regresion 
agrupada  que  estimo  en  h). 

d)  /.Como  decidiria  entre  la  regresion  agrupada  y  la  regresion  de  MCVD?  Realice  los 
calculos  necesarios. 

16.14.  La  tabla  16.16  suministra  datos  sobre  la  tasa  de  desempleo  civil  Y  (%)  y  los  salarios  por 
hora  del  sector  manufacturero  en  dolares  estadounidenses  X  (indice,  1992  =  100)  para 
Canada,  Reino  Unido  y  Estados  Unidos  de  1980  a  2006.  Considere  el  modelo: 

Yit  —  Pi  +  PiXu  +  uit  (1) 


TABLA  16.16 

Tasa  de  desempleo  y 

Ano 

Sal_EUA 

Desemp_EUA 

Sal_CAN 

Desemp_CAN 

Sal_RU 

Desemp_RU 

salario  por  hora  en  el 

1980 

55.9 

7.1 

49.0 

7.3 

47.1 

6.9 

sector  manufacturero. 

1981 

61.6 

7.6 

53.8 

7.3 

47.5 

9.7 

en  Estados  Unidos, 

1982 

67.2 

9.7 

60.1 

10.7 

45.1 

10.8 

Canada  y  Reino  Unido, 

1983 

69.3 

9.6 

64.3 

11.6 

41.9 

11.5 

1980-2006. 

1984 

71.6 

7.5 

65.0 

10.9 

39.8 

11.8 

1985 

75.3 

7.2 

65.0 

10.2 

42.3 

11.4 

Fuente:  Economic  Report  of  the 

1986 

78.8 

7.0 

64.9 

9.3 

52.0 

11.4 

President,  enero  de  2008,  tabla 

1987 

81.3 

6.2 

69.6 

8.4 

64.5 

10.5 

1988 

84.1 

5.5 

78.5 

7.4 

74.8 

8.6 

1989 

86.6 

5.3 

85.5 

7.1 

73.5 

7.3 

5.6 

1990 

90.5 

92.4 

7.7 

89.6 

7.1 

1991 

95.6 

6.8 

100.7 

9.8 

99.9 

8.9 

1992 

100.0 

7.5 

100.0 

10.6 

100.0 

10.0 

1993 

102.0 

6.9 

94.8 

10.8 

88.8 

10.4 

6.1 

1994 

105.3 

92.1 

9.6 

92.8 

8.7 

1995 

107.3 

5.6 

93.9 

8.6 

97.3 

8.7 

1996 

109.3 

5.4 

95.9 

8.8 

96.0 

8.1 

1997 

112.2 

4.9 

96.7 

8.4 

104.1 

7.0 

1998 

118.7 

4.5 

94.9 

7.7 

113.8 

6.3 

1999 

123.4 

4.2 

96.8 

7.0 

117.5 

6.0 

2000 

134.7 

4.0 

100.0 

6.1 

114.8 

5.5 

2001 

137.8 

4.7 

98.9 

6.5 

114.7 

5.1 

2002 

147.8 

5.8 

101.0 

7.0 

126.8 

5.2 

2003 

158.2 

6.0 

116.7 

6.9 

145.2 

5.0 

2004 

161.5 

5.5 

127.1 

6.4 

171.4 

4.8 

2005 

168.3 

5.1 

141.8 

6.0 

177.4 

4.8 

2006 

172.4 

4.6 

155.5 

5.5 

192.3 

5.5 

Notas:  Desemp  =  Tasa  de  desempleo  %.  Sal  =  Indice  de  salarios  por  hora  en  dolares  estadounidenses,  1992-100.  CAN  =  Canada. 
RU  =  Reino  Unido. 
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a)  A  priori,  /.cual  es  la  relation  esperada  entre  Y  y  X7  (',Por  que? 

b)  Calcule  el  modelo  dado  en  (1)  para  cada  pais. 

c)  Estime  el  modelo  agrupando  las  81  observaciones  en  su  totalidad. 

d)  Calcule  el  modelo  de  efectos  fijos. 

e)  Estime  el  modelo  de  componentes  del  error. 

/)  (',Cual  es  el  mejor  modelo,  el  MEF  o  el  MCE?  Justifique  la  respuesta.  ( Sugerencia : 
Aplique  la  prueba  de  Hausman.) 

16.15.  Baltagi  y  Griffin  consideraron  la  siguiente  funcion  de  demanda  de  gasolina:* 

In  Yu  —  ft  +  ft  In  ft n  +  ft  In  ftn  +  ft  In  ft,r  +  w// 

donde  Y  —  consumo  de  gasolina  por  automovil;  ft  —  ingreso  real  per  capita,  ft  =  precio 
real  de  la  gasolina,  ft  =  numero  de  automoviles  per  capita,  i  —  clave  del  pais,  en  los 
18  paises  miembros  de  la  OCDE,  y  t  —  tiempo  (observaciones  anuales  de  1960  a  1978). 
Nota:  Los  valores  de  la  tabla  ya  muestran  el  rezago  correspondiente. 

a)  Estime  la  funcion  de  demanda  anterior  agrupando  los  datos  de  los  1 8  paises  miem¬ 
bros  (un  total  de  342  observaciones). 

b )  Estime  el  modelo  de  efectos  fijos  con  los  mismos  datos. 

c)  Estime  el  modelo  de  componentes  aleatorios  con  los  mismos  datos. 

d)  Con  base  en  este  analisis,  /.que  modelo  describe  mejor  la  demanda  de  gasolina  en  los 
1 8  paises  de  la  OCDE?  Justifique  su  respuesta. 

16.16.  El  articulo  de  Subhayu  Bandyopadhyay  y  Howard  J.  Wall  “The  Determinants  of  Aid  in  the 
Post-Cold  War  Era”,  Review,  Federal  Reserve  Bank  of  St.  Louis,  noviembre-diciembre  de 
2007,  vol.  89,  numero  6,  pp.  533-547,  estima,  con  datos  de  panel,  la  capacidad  de  ayuda 
a  las  necesidades  economicas  y  fisicas  de  los  paises  beneficiarios,  los  derechos  civiles  y 
politicos,  y  la  eficacia  del  gobierno.  Los  datos  corresponden  a  135  paises  y  abarcan  tres 
afios.  El  articulo  y  los  datos  se  encuentran  en:  http://research.stlouisfed.org/publications/ 
review/past/2007  en  la  section  num  10,  vol.  89,  noviembre  y  diciembre.  Los  datos  tam- 
bien  se  encuentran  en  el  sitio  web  de  este  libro,  en  la  tabla  16.18.  Estime  el  modelo  de 
los  autores  (presentado  en  la  pagina  534  del  articulo)  mediante  un  estimador  de  efectos 
aleatorios.  Compare  los  resultados  con  los  de  los  estimadores  de  efectos  agrupados  y 
fijos  proporcionados  por  los  autores  en  la  tabla  2  de  su  articulo.  (',Quc  modelo  es  apro- 
piado  en  este  caso,  el  de  efectos  fijos  o  el  de  efectos  aleatorios?  qPor  que? 

16.17.  Consulte  el  ejemplo  de  las  aerolineas  analizado  en  el  texto.  Para  cada  aerolinea,  estime 
una  funcion  de  costo  logaritmica  de  series  de  tiempo.  (.Como  se  comparan  estas  regre- 
siones  con  los  modelos  de  efectos  fijos  y  efectos  aleatorios  estudiados  en  el  capitulo? 
(Tambicn  puede  estimar  15  funciones  logaritmicas  de  costo  de  corte  transversal  ?  7  Por 
que? 


*  B.H.  Baltagi  y  J.M.  Griffin,  "Gasoline  Demand  in  the  OECD:  An  Application  of  Pooling  and  Testing  Pro¬ 
cedures",  European  Economic  Review,  vol.  22,  1 983,  pp.  1 1  7-1 37.  Los  datos  de  los  1 8  paises  de  la  OCDE 
correspondientes  a  los  anos  1960-1978  se  encuentran  en  http://www.wiley.com/legacy/wileychi/baltagi/ 
supp/Gasoline.dat,  o  en  el  sitio  web  de  este  texto,  tabla  1 6.1  7. 


Capitulo 


Modelos  econometricos 
dinamicos:  modelos 
autorregresivos  y  de 
rezagos  distribuidos 

En  el  analisis  de  regresion  con  datos  de  series  de  tiempo,  cuando  el  modelo  de  regresion  incluye 
no  solo  valores  actuales  sino  ademas  valores  rezagados  (pasados)  de  las  variables  explicativas 
(las  X),  se  denomina  modelo  de  rezagos  distribuidos.  Si  el  modelo  incluye  uno  o  mas  valores 
rezagados  de  la  variable  dependiente  entre  sus  variables  explicativas,  se  denomina  modelo  au- 
torregresivo.  Asi, 


Yt  —  a  +  @oXt  +  +  @2X1-2  +  Ut 

representa  un  modelo  de  rezagos  distribuidos,  mientras  que 


Yt  —  a  -\-  @Xt  +  y  Yt-\  +  ut 


es  un  ejemplo  de  modelo  autorregresivo.  Estos  ultimos  tambien  se  conocen  como  modelos  dina¬ 
micos,  pues  senalan  la  trayectoria  en  el  tiempo  de  la  variable  dependiente  en  relacion  con  su(s) 
valor(es)  pasado(s). 

Los  modelos  autorregresivos  y  de  rezagos  distribuidos  son  muy  comunes  en  el  analisis  econo- 
metrico,  y  en  este  capitulo  los  estudiaremos  en  detalle  con  el  objeto  de  averiguar  lo  siguiente: 

1 .  ^Cual  es  el  papel  de  los  rezagos  en  economia? 

2.  ^Con  que  razones  se  justifican  los  rezagos? 

3.  ^Existe  alguna  justificacion  teorica  para  los  modelos  rezagados  comunes  en  la  econometria 
empirica? 

4.  ^Cual  es  la  relacion,  si  acaso,  entre  los  modelos  autorregresivos  y  los  modelos  de  rezagos 
distribuidos?  (',Pueden  derivarse  unos  de  otros? 

5.  ^Cuales  son  algunos  problemas  estadisticos  relacionados  con  la  estimacion  de  tales  mode¬ 
los? 

6.  (',La  relacion  adelantada-rezagada  entre  variables  implica  causalidad?  De  ser  asi,  ,',061110  se 
mide? 
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17.1  El  papel  del  “tiempo”  o  “rezago”  en  economfa 


En  economia,  la  dependencia  de  una  variable  Y  (la  variable  dependiente)  respecto  de  otra  u  otras 
variables  X  (las  variables  explicativas)  pocas  veces  es  instantanea.  Con  frecuencia  Y responde  a  X 
en  un  lapso,  el  cual  se  denomina  rezago.  Para  ilustrar  la  naturaleza  del  rezago,  aqui  consideramos 
diversos  ejemplos. 


EJEMPLO  17.1 

La  funcion  consumo 


Suponga  que  una  persona  recibe  un  incremento  salarial  de  $2  000  en  su  pago  anual  y  que  se 
trata  de  un  incremento  "permanente"  en  el  sentido  de  que  se  mantiene  el  incremento  en  el  sa- 
lario.  jC ual  sera  el  efecto  de  este  incremento  en  el  ingreso  sobre  su  gasto  de  consumo  anual? 

Despues  del  aumento  en  el  ingreso,  la  gente  no  se  apura  a  gastarse  todo  el  incremento  de 
inmediato.  Asi,  el  beneficiario  de  este  ejemplo  puede  decidir  aumentar  su  gasto  de  consumo 
$800  durante  el  primer  ano  despues  del  incremento  en  el  ingreso,  $600  en  el  siguiente  ano  y 
otros  $400  un  ano  despues,  para  ahorrar  el  resto.  A  finales  del  tercer  ano,  el  gasto  de  consumo 
anual  de  la  persona  habra  aumentado  $1  800.  Entonces  la  funcion  de  consumo  se  escribe 


Yt  =  constante  +  0.4  Xt  +  0.3Xt-i  +  0.2Xt_2  +  ut  (17.1 .1) 


donde  Y es  el  gasto  de  consumo  y  X  es  el  ingreso. 

La  ecuacion  (1  7.1 .1 )  muestra  que  el  efecto  de  un  incremento  de  $2  000  en  el  ingreso  se  pro- 
paga,  o  distribuye,  durante  un  periodo  de  tres  anos.  Por  consiguiente,  modelos  como  (1  7.1 .1 )  se 
denominan  modelos  de  rezagos  distribuidos,  porque  el  efecto  de  una  causa  dada  (el  ingreso) 
se  propaga  durante  varios  periodos.  En  terminos  geometricos,  el  modelo  de  rezagos  distribuidos 
(1  7.1 .1 )  se  muestra  en  la  figura  1  7.1 ,  o,  alternativamente,  en  la  figura  1  7.2. 


FIGURA  17.1 

Ejemplo  de  rezagos 
distribuidos. 


FIGURA  17.2 

Efecto  de  un  cambio 
unitario  en  X  sobre  Y  en 
el  tiempo  t  y  sobre  los 
periodos  subsiguientes. 


Efecto  sobre  Y  /30 Xt 


PA 


PA  PA 


PAt 
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En  forma  mas  general,  escribiriamos 


Yt  —  a  +  PqX,  +  +  ft2Xt-2  +  ■  ■  ■  +  faX,-k  +  Ut  (1 7.1 .2) 

que  es  el  modelo  de  rezagos  distribuidos  con  un  rezago  finito  de  k  periodos.  El  coeficiente  A)  se 
conoce  como  multiplicador  de  corto  plazo  o  de  impacto  porque  da  el  cambio  en  el  valor  medio 
de  Y  que  sigue  a  un  cambio  unitario  enX  en  el  mismo  periodo.1  Si  el  cambio  en  X  se  mantiene 
igual  desde  el  principio,  entonces  (/So  +  /Si)  da  el  cambio  en  (el  valor  medio  de)  Y  en  el  periodo 
siguiente  (/So  +  /Si  +  AO  en  el  que  le  sigue,  y  asi  sucesivamente.  Estas  sumas  parciales  se  deno- 
minan  multiplicadores  interin,  o  intermedios.  Por  ultimo,  despues  de  k  periodos  obtenemos 

k 

=  ft) +  ft +&  +  ■"  + At  =  0  (17.1.3) 

i=0 

que  se  conoce  como  multiplicador  de  rezagos  distribuidos  de  largo  plazo  o  total,  siempre  que 
exista  la  suma  /6  (explicaremos  esto  mas  adelante). 

Si  definimos 


A 


Eft 


(17.1.4) 


obtenemos  A  “estandarizado”.  Las  sumas  parciales  del  /3,  estandarizado  dan  la  proporcion  del 
impacto  de  largo  plazo,  o  total,  sentido  durante  cierto  periodo. 

De  vuelta  a  la  regresion  de  consumo  (17.1.1),  vemos  que  el  multiplicador  de  corto  plazo,  que 
no  es  otra  cosa  que  la  propension  marginal  a  consumir  de  corto  plazo  (PMC),  es  0.4,  mientras 
que  el  multiplicador  de  largo  plazo,  que  es  la  propension  marginal  a  consumir  de  largo  plazo,  es 
0.4  +  0.3  +  0.2  =  0.9.  Es  decir,  despues  de  un  incremento  de  $1  en  el  ingreso,  el  consumidor 
aumentara  su  nivel  de  consumo  alrededor  de  40  centavos  de  dolar  en  el  ano  del  aumento,  otros 
30  centavos  en  el  ano  siguiente  y  otros  20  centavos  mas  en  el  siguiente.  El  impacto  de  largo  plazo 
de  un  incremento  de  $  1  en  el  ingreso  es,  entonces,  de  90  centavos.  Si  dividimos  cada  ft,  entre  0.9, 
obtenemos  0.44,  0.33  y  0.23,  respectivamente,  lo  cual  indica  que  44%  del  impacto  total  de  un 
cambio  unitario  enXsobre  Y  se  siente  de  inmediato,  77%  se  siente  despues  de  un  ano,  y  100%, 
al  finalizar  el  segundo  ano. 


EJEMPLO  17.2 

Creadon  de  dinero 
bancario  (depositos 
a  la  vista) 


Suponga  que  el  Sistema  de  la  Reserva  Federal  emite  $1  000  de  dinero  nuevo,  el  cual  entrega  al 
sistema  bancario  mediante  la  compra  de  titulos  del  gobierno.  ,;Cual  sera  la  cantidad  total  del 
dinero  bancario,  o  depositos  a  la  vista,  que  se  generaran  en  ultimo  termino? 

En  el  contexto  del  sistema  de  reservas  fraccionales,  si  suponemos  que  la  ley  exige  a  los  bancos 
retener  20%  de  las  reservas  para  respaldar  los  depositos  que  ellos  crean,  entonces,  mediante 
el  conocido  proceso  multiplicador,  el  total  de  los  depositos  a  la  vista  que  se  generaran  sera 
$1  000[1  /(I  —  0.8)]  =  $5  000.  Por  supuesto,  $5  000  en  depositos  a  la  vista  no  se  crean  de  la 
noche  a  la  manana.  El  proceso  toma  tiempo,  como  se  ve  esquematicamente  en  la  figura  1  7.3. 


( continua ) 


1  Tecnicamente,  ft  es  la  derivada  parcial  de  Y  respecto  de  Xt,  fi-\  respecto  de  Xt_i,  respecto  de  Xt_2,  y  asf 
sucesivamente.  Simbolicamente,  3V't/9Xt_*  =  ft. 
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EJEMPLO  17.2 

(i continuation ) 


FIGURA  1  7.3  Expansion  acumulativa  en  depositos  bancarios  (reserva  inicial  de  $1  000  y 
requerimientos  de  encaje  de  20%). 


Inicial  1  2  3  4  5  6  7  Final 

$  1  000  Etapas  en  expansion 


EJEMPLO  17.3  De  acuerdo  con  los  monetaristas,  la  inflacion  es,  en  esencia,  un  fenomeno  monetario  en  el 
Vinculo  entre  dinero  sent'd°  de  que  un  incremento  continuo  en  el  nivel  general  de  precios  se  debe  a  la  tasa  de  ex¬ 
pansion  en  la  oferta  monetaria  que  excede  en  mayor  medida  la  cantidad  de  dinero  realmente 
y precios  demandada  por  las  unidades  economicas.  Por  supuesto,  este  vinculo  entre  inflacion  y  cambios 

en  la  oferta  monetaria  no  es  instantaneo.  Algunos  estudios  demuestran  que  el  rezago  entre  las 
dos  esta  en  alguna  parte  entre  3  y  alrededor  de  20  trimestres.  Los  resultados  de  uno  de  estos 
estudios  se  presentan  en  la  tabla  1  7. 1,2  donde  se  ve  que  el  efecto  de  un  cambio  de  1%  en  la 
oferta  monetaria  Ml  B  (=  dinero  circulante  +  depositos  a  la  vista  en  las  instituciones  financieras) 
se  siente  durante  un  periodo  de  20  trimestres.  El  impacto  de  largo  plazo  de  un  cambio  de  1% 
en  la  oferta  monetaria  sobre  la  inflacion  es  de  alrededor  de  1  (=  estadisticamente  signifi¬ 

cative,  mientras  que  el  impacto  de  corto  plazo  es  de  alrededor  de  0.04,  no  significativo,  aunque 
los  multiplicadores  intermedios  por  lo  general  parecen  significativos.  A  proposito,  observe  que, 
como  Py  M  se  expresan  en  forma  porcentual,  las  m,  (/S,  en  nuestra  notacion)  dan  la  elasticidad 
de  P  respecto  de  M,  es  decir,  la  respuesta  porcentual  de  los  precios  a  un  incremento  de  1%  en 
la  oferta  monetaria.  Asi,  mo  =  0.041  significa  que  para  un  incremento  de  1%  en  la  oferta  mo¬ 
netaria,  la  elasticidad  de  corto  plazo  de  los  precios  es  de  alrededor  de  0.04%.  La  elasticidad  de 
largo  plazo  es  1 .03%,  lo  cual  implica  que,  en  el  largo  plazo,  un  incremento  de  1%  en  la  oferta 
monetaria  se  refleja  en  apenas  alrededor  del  mismo  incremento  porcentual  en  los  precios.  En 
resumen,  un  incremento  de  1%  en  la  oferta  monetaria  se  acompana  en  el  largo  plazo  por  un 
incremento  de  1  %  en  la  tasa  de  inflacion. 


2  Keith  M.  Carlson,  "The  Lag  from  Money  to  Prices",  Review,  Federal  Reserve  Bank  of  St.  Louis,  octubre  de 
1980,  tabla  1,  p.  4. 
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EJEMPLO  17.3  TABLA  17.1  Estimation  de  la  ecuacion  dinero-precios:  especificacion  original 

( continuation )  Periodo  muestral:  1955-1  a  1969-IV:  m2i  =  0 

20 

P  =  -0.146+  X;  m,/Vf_, 

0 

(0.395) 


Coef. 

lfl 

Coef. 

lfl 

Coef. 

|f| 

m0 

0.041 

1.276 

m8 

0.048 

3.249 

"I!  6 

0.069 

3.943 

mi 

0.034 

1.538 

mg 

0.054 

3.783 

mi  7 

0.062 

3.712 

/T?2 

0.030 

1.903 

m  10 

0.059 

4.305 

mi  8 

0.053 

3.511 

m3 

0.029 

2.171 

mu 

0.065 

4.673 

mi  9 

0.039 

3.338 

rri4 

0.030 

2.235 

mi  2 

0.069 

4.795 

m2  o 

0.022 

3.191 

ms 

0.033 

2.294 

mi  3 

0.072 

4.694 

1.031 

7.870 

m6 

0.037 

2.475 

mi  4 

0.073 

4.468 

Rezago  medio 

10.959 

5.634 

m7 

0.042 

2.798 

mi  5 

0.072 

4.202 

R 2 

0.525  ee 

1.066 

D.W.  . 

2.00 

Notation:  P  =  tasa  de  cambio  anual  compuesta  del  deflactor  del  PNB. 

M  =  tasa  de  cambio  anual  compuesta  de  M1B. 

Fuente:  Keith  M.  Carlson,  “The  Lag  from  Money  to  Prices”,  Review,  Federal  Reserve  Bank  of  St.  Louis,  octubre  de  1980,  tabla  1,  p.  4. 


EJEMPLO  17.4 

Rezagos  entre  el 
gasto  en  lyD  y 
productividad 


La  decision  de  invertir  en  gastos  de  investigation  y  desarrollo  (lyD)  y  su  compensation  definitiva 
en  terminos  de  mayor  productividad  implica  un  considerable  rezago,  en  realidad  formado  por 
diversos  rezagos,  como  "el  rezago  entre  la  inversion  de  los  fondos  y  el  momento  en  el  cual  los 
inventos  realmente  empiezan  a  aparecer,  el  rezago  entre  la  invencion  de  una  idea  o  mecanismo 
y  su  desarrollo  hasta  llegar  a  la  etapa  en  que  sea  comercialmente  aplicable  y  el  rezago  que  se 
introduce  en  razon  del  proceso  de  difusion:  se  requiere  tiempo  para  reemplazar  las  maquinas 
viejas  por  nuevas  y  mejores".3 


EJEMPLO  17.5 

La  cur\>a  J  de  la 
economia  interna- 
cional 


Los  estudiantes  de  economia  internacional  conocen  ya  la  curva  j,  la  cual  muestra  la  relacion  entre 
el  balance  comercial  y  la  depreciation  de  la  moneda.  Al  dar  seguimiento  a  la  depreciation  de  la 
moneda  de  un  pafs  (por  ejemplo,  a  causa  de  una  devaluacion),  al  principio  la  balanza  comercial 
se  deteriora,  pero  a  la  larga  mejora,  si  lo  demas  se  mantiene  igual.  La  curva  se  muestra  en  la 
figura  1  7.4. 


FIGURA  17.4 

La  curva  J. 

Fuente:  Paul  R.  Krugman  y 
Maurice  Obstfeld,  International 
Economics:  Theory  and  Prac¬ 
tice,  3a.  ed.,  Harper  Collins, 
Nueva  York,  1994,  p.  465. 


Cuenta  corriente 

(en  unidades  del  producto  interno) 


real  y  comienza  la  curva  J  curva  J 


3  Zvi  Griliches,  "Distributed  Lags:  A  Survey",  Econometrica,  vol.  36,  num.  1,  enero  de  1967,  pp.  16-49. 
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EJEMPLO  17.6 

El  modelo  acelera- 
dor  de  la  inversion 


En  su  forma  mas  sencilla,  el  principio  de  aceleracion  de  la  teorfa  de  la  inversion  establece  que  la 
inversion  es  proporcional  a  los  cambios  en  la  produccion.  De  manera  simbolica, 

/t  =  j8(Xt  -  Xt_-|)  p>  0  (17.1.5) 

donde  lt  es  la  inversion  en  el  tiempo  t,  Xt  es  la  produccion  en  el  tiempo  f  y  Xt_i  es  la  produccion 
en  el  tiempo  (t  —  1). 


Los  ejemplos  anteriores  son  una  muestra  de  los  rezagos  en  economla.  Sin  duda,  el  lector 
puede  dar  diversos  ejemplos  con  base  en  su  propia  experiencia. 

17.2  Razones  de  los  rezagos* 1 2 3 4 


Aunque  los  ejemplos  de  la  seccion  17.1  senalan  la  naturaleza  de  los  fenomenos  rezagados,  no 

explican  por  completo  la  razon  por  la  cual  ocurren.  Hay  tres  razones  principales: 

1.  Razones  psicologicas.  Como  resultado  de  la  fuerza  del  habito  (inercia),  la  gente  no  cambia 
sus  habitos  de  consumo  de  inmediato  tras  una  reduccion  de  precios  o  de  un  incremento  en  el 
ingreso,  quiza  debido  a  que  el  proceso  de  cambio  conlleve  alguna  desventaja  inmediata.  Asl, 
quienes  de  pronto  se  convierten  en  millonarios  al  ganar  la  loterla  quiza  no  cambien  el  estilo 
de  vida  al  cual  estaban  acostumbrados  durante  largo  tiempo  por  no  saber  como  reaccionar  a 
una  ganancia  repentina  como  esa.  Por  supuesto,  despues  de  un  tiempo  razonable,  aprenden 
a  vivir  con  su  recien  adquirida  fortuna.  Asimismo,  la  gente  puede  no  saber  si  un  cambio  es 
“permanente”  o  “transitorio”.  Asi,  su  reaction  a  un  incremento  en  su  ingreso  depende  de  que 
el  incremento  sea  permanente  o  no.  Si  solo  es  un  incremento  que  no  se  repite  y  en  los  periodos 
siguientes  su  ingreso  retorna  al  nivel  anterior,  quiza  ahorre  la  totalidad  del  incremento,  mien- 
tras  que  otra  persona  en  su  position  puede  decidir  “disfrutarlo”. 

2.  Razones  tecnologicas.  Suponga  que  se  reduce  el  precio  del  capital  relativo  al  trabajo,  de 
modo  que  es  economicamente  factible  sustituir  mano  de  obra  por  capital.  Desde  luego,  la 
adicion  de  capital  toma  tiempo  (periodo  de  gestation).  Ademas,  si  se  espera  que  la  caida  de 
precios  sea  temporal,  las  empresas  pueden  no  apurarse  a  sustituir  mano  de  obra  por  capital, 
en  especial  si  esperan  que  luego  de  la  caida  temporal  el  precio  del  capital  tal  vez  aumente 
mas  alia  de  su  nivel  anterior.  Algunas  veces,  el  conocimiento  imperfecto  tambien  explica  los 
rezagos.  En  este  momenta,  el  mercado  de  computadoras  personales  esta  lleno  de  toda  clase  de 
computadoras  con  diversas  caracteristicas  y  precios.  Ademas,  desde  su  introduction,  a  finales 
de  la  decada  de  los  anos  setenta,  los  precios  de  la  mayoria  de  las  computadoras  personales  se 
han  reducido  en  forma  drastica.  Como  resultado,  los  posibles  consumidores  de  computadoras 
personales  pueden  dudar  en  comprar  hasta  que  hayan  tenido  tiempo  de  revisar  las  caracteris¬ 
ticas  y  los  precios  de  todas  las  marcas.  Ademas,  pueden  dudar  en  comprar  ante  la  expectativa 
de  mayores  descensos  de  precio  o  de  mas  innovaciones. 

3.  Razones  institucionales.  Estas  razones  tambien  contribuyen  a  los  rezagos.  Por  ejemplo,  las 
obligaciones  contractuales  pueden  impedir  que  las  empresas  cambien  de  una  fuente  de  trabajo 
o  de  materias  primas  a  otra.  Por  ejemplo,  quienes  colocaron  fondos  en  cuentas  de  ahorro  de 
largo  plazo  con  termino  fijo,  como  uno,  tres  o  siete  anos,  estan  “atrapados”,  aunque  las  condi- 
ciones  del  mercado  de  dinero  ahora  permitan  rendimientos  mas  altos  en  otras  partes.  En  forma 
similar,  los  empleadores  con  frecuencia  permiten  a  sus  empleados  escoger  entre  diversos  pla¬ 
nes  de  seguro  de  salud,  pero  solo  se  hace  una  selection,  y  un  empleado  no  puede  cambiarse  a 
otro  plan  durante  al  menos  un  ano.  Aunque  esto  puede  representar  una  conveniencia  adminis- 
trativa,  el  empleado  queda  comprometido  durante  un  ano. 


4  Esta  seccion  se  basa  en  buena  medida  en  Marc  Nerlove,  "Distributed  Lags  and  Demand  Analysis  for  Agri¬ 
cultural  and  Other  Commodities",  Agricultural  Handbook,  num.  141,  Departamento  de  Agricultura  de  Esta- 
dos  Unidos,  junio  de  1 958. 
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Por  estas  razones,  el  rezago  desempena  un  papel  central  en  economla.  Esto  se  refleja  en  la 
metodologla  economica  del  corto  y  largo  plazos.  Por  esta  razon  se  dice  que  las  elasticidades 
precio-ingreso  de  corto  plazo  suelen  ser  menores  (en  valores  absolutos)  que  las  elasticidades 
correspondientes  de  largo  plazo,  o  que  la  propension  marginal  a  consumir  de  corto  plazo  es  por 
lo  general  menor  que  la  propension  marginal  a  consumir  de  largo  plazo. 


17.3  Estimacion  de  modelos  de  rezagos  distribuidos 


Ya  establecimos  que  los  modelos  de  rezagos  distribuidos  desempenan  un  papel  muy  util  en  eco- 
nomia,  pero  (',c6mo  se  estiman  dichos  modelos?  Suponga  que  tenemos  el  siguiente  modelo  de 
rezagos  distribuidos  en  una  variable  explicativa:5 


Y,  =  a  +  p0Xt  +  pxXt_x  +  p2Xt_2  +  ■■■  +  «,  (17.3.1) 

donde  no  hemos  definido  la  longitud  del  rezago,  es  decir,  cuan  atras  en  el  pasado  deseamos  ir. 
Tal  modelo  se  denomina  modelo  de  rezagos  inftnito,  mientras  que  un  modelo  del  tipo  (17.1.2) 
se  denomina  modelo  de  rezagos  distribuidos  (rezagos)  finito  porque  la  longitud  del  rezago  k 
esta  especificada.  Continuaremos  con  (17.3.1)  por  su  facilidad  de  manejo  matematico,  como 
veremos.6 

pComo  estimamos  a  y  las  de  (17.3.1)?  Podemos  adoptar  dos  enfoques:  1)  estimacion  ad 
hoc  y  2)  restricciones  a  priori  sobre  las  ft,  si  suponemos  que  (las  fi)  siguen  un  patron  sistematico. 
Consideraremos  la  estimacion  ad  hoc  en  esta  seccion,  y  el  otro  enfoque,  en  la  seccion  17.4. 


Estimacion  ad  hoc  de  los  modelos  de  rezagos  distribuidos 

Como  se  supone  que  la  variable  explicativa  X,  es  no  estocastica  (o  por  lo  menos  no  correlacio- 
nada  con  el  termino  de  perturbacion  ut),  igualmente  son  no  estocasticas  X,_x,  Xt_2,  y  as!  sucesi- 
vamente.  Por  consiguiente,  en  principio,  es  aplicable  el  metodo  de  minimos  cuadrados  ordinarios 
(MCO)  a  (17.3.1).  Este  es  el  enfoque  de  Alt7  y  Tinbergen,8  quienes  sugieren  que  para  estimar 
(17.3.1)  se  proceda  secuencialmente,  es  decir,  primero  la  regresion  Y,  sobre  Xt,  luego  la  de  Y, 
sobre  X,  y  Xt_\,  despues  la  regresion  de  Y,  sobre  Xt,  Xt_\  y  X,_2,  y  asi  sucesivamente.  Este  pro- 
cedimiento  secuencial  se  detiene  cuando  los  coeficientes  de  regresion  de  las  variables  rezagadas 
empiezan  a  ser  estadisticamente  insignificantes  y/o  el  coeficiente  de  por  lo  menos  una  variable 
cambia  su  signo  de  positivo  a  negativo,  o  viceversa.  Segun  este  precepto,  Alt  efectuo  la  regresion 
de  Y,  consumo  de  gasolina,  sobre  nuevos  pedidos  X.  Con  base  en  informacion  trimestral  de  1930 
a  1939,  los  resultados  fueron  los  siguientes: 

Yt  =  8.37 +  0.171  A, 

Y,  =  8.27  +  0.1 11A,  +0.064A,_j 

%  =  8.27  +  0.109 A,  +  0.071A,_i  -  0.055A,_2 

%  =  8.32  +  0.108A  +  0.063A,_i  +  0.022A,_2  -  0.020A,_3 


5  Si  hay  mas  de  una  variable  explicativa  en  el  modelo,  cada  variable  puede  tener  un  efecto  rezagado  sobre  Y. 
Por  simplicidad,  solo  suponemos  una  variable  explicativa. 

6  En  la  practica,  sin  embargo,  se  espera  que  los  coeficientes  de  los  valores  distantes  de  X  tengan  un  efecto 
insignificante  sobre  Y. 

7  F.F.  Alt,  "Distributed  Lags",  Econometrica,  vol.  1 0,  1 942,  pp.  1 1  3-1 28. 

8J.  Tinbergen,  "Long-Term  Foreign  Trade  Elasticities",  Metroeconomica,  vol.  1,  1 949,  pp.  1  74-1 85. 
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Alt  escogio  la  segunda  regresion  como  la  “mejor”  porque  en  las  ultimas  dos  ecuaciones  el  signo 
de  X,_2  no  fue  estable  y  en  la  ultima  ecuacion  el  signo  de  X,_3  fue  negativo,  lo  cual  es  dificil 
interpretar  en  terminos  economicos. 

Aunque  la  estimacion  ad  hoc  parece  sencilla  y  discreta,  plantea  muchas  desventajas,  como 
las  siguientes: 

1.  No  hay  guia  a  priori  sobre  la  longitud  maxima  que  debe  tener  el  rezago.9 

2.  A  medida  que  se  estiman  rezagos  sucesivos,  quedan  menos  grados  de  libertad,  con  lo  cual  se 
debilita  un  poco  la  inferencia  estadistica.  Por  lo  general,  los  economistas  no  tienen  la  suerte 
de  contar  con  series  largas  que  les  permitan  estimar  numerosos  rezagos. 

3.  Aun  mas  importante,  en  la  informacion  de  series  de  tiempo  economicas,  los  valores  (de  reza¬ 
gos)  sucesivos  tienden  a  estar  altamente  correlacionados;  por  tanto,  sale  a  relucir  la  multico- 
linealidad.  Como  mencionamos  en  el  capitulo  10,  la  multicolinealidad  genera  una  estimacion 
imprecisa;  es  decir,  los  errores  estandar  tienden  a  ser  grandes  en  relacion  con  los  coeficientes 
estimados.  Como  resultado,  con  base  en  el  calculo  rutinario  de  las  razones  t,  podemos  tender 
a  declarar  (erroneamente)  que  uno  o  varios  coeficientes  de  los  rezagos  son  estadisticamente 
no  significativos. 

4.  La  busqueda  secuencial  de  la  longitud  de  los  rezagos  hace  que  el  investigador  pueda  incurrir 
en  la  mineria  de  datos.  Tambien,  como  vimos  en  la  seccion  13.4,  el  nivel  de  significancia 
nominal  y  verdadero  para  probar  hipotesis  estadisticas  se  convierte  en  un  asunto  importante 
en  tales  busquedas  secuenciales  [vease  la  ecuacion  (13.4.2)]. 

En  vista  de  estos  problemas,  no  es  muy  recomendable  el  procedimiento  de  estimacion  ad 
hoc.  Sin  duda,  deben  tenerse  en  cuenta  algunas  consideraciones  previas  o  teoricas  para  tratar  las 
diversas  ft  si  deseamos  resolver  el  problema  de  estimacion. 


17.4  Metodo  de  Koyck  para  los  modelos  de  rezagos  distribuidos 


Koyck  propuso  un  metodo  ingenioso  de  estimacion  de  los  modelos  de  rezagos  distribuidos.  Su- 
ponga  que  empezamos  con  un  modelo  de  rezagos  distribuidos  infinito  (17.3.1).  Si  todas  las  ft 
tienen  el  mismo  signo,  Koyck  da  por  hecho  que  se  reducen  geometricamente  de  la  siguiente 
manera.10 


ftk  =  ft0Xk  £  =  0,1,...  (17.4.1)11 

donde  X,  tal  que  0  <  7.  <  1,  se  conoce  como  tasa  de  descenso,  o  de  caida,  del  rezago  distribuido 
y  donde  1  —  X  se  conoce  como  velocidad  de  ajuste. 

Lo  que  se  postula  en  (17.4.1)  es  que  cada  coeficiente  ft  sucesivo  es  numericamente  inferior 
a  cada  ft  anterior  (esta  afirmacion  se  debe  a  que  X  <  1),  lo  cual  implica  que,  a  medida  que  se 
retorna  al  pasado  distante,  el  efecto  de  ese  rezago  sobre  Y,  se  reduce  progresivamente,  supuesto 
muy  razonable.  Despues  de  todo,  se  espera  que  los  ingresos  actuales  y  del  pasado  reciente  afecten 
al  gasto  de  consumo  actual  con  mayor  peso  que  el  ingreso  en  el  pasado  distante.  En  la  figura  17.5 
se  ilustra  geometricamente  el  esquema  de  Koyck. 

Como  muestra  esta  figura,  el  valor  del  coeficiente  del  rezago  ftk  depende,  aparte  del  /So  comun, 
del  valor  de  X.  Entre  mas  cerca  de  1  este  X,  mas  lenta  sera  la  tasa  de  descenso  en  ftk,  mientras  que, 


9  Si  la  longitud  del  rezago,  k,  esta  especificada  incorrectamente,  tendremos  que  enfrentar  el  problema  de 
errores  de  especificacion  analizado  en  el  capitulo  1  3.  Tenga  en  mente  tambien  la  advertencia  sobre  la  mine¬ 
ria  de  datos. 

10L.M.  Koyck,  Distributed  Lags  and  Investment  Analysis,  North  Holland,  Amsterdam,  1954. 

11  Algunas  veces  esto  se  escribe  tambien  como 

ftk  =  A)(1  -  k  =  0,1,... 

por  las  razones  dadas  en  la  nota  12. 
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FIGURA  17.5 

Esquema  de  Koyck 
(distribucion  geometrica 
descendente). 


Ac 


entre  mas  cerca  este  de  cero,  mas  rapido  sera  el  descenso  en  ft.  En  el  primer  caso,  los  valores 
del  pasado  distante  de  X  ejerceran  un  impacto  considerable  sobre  Yh  mientras  que  en  el  ultimo 
caso,  su  influencia  sobre  Y,  desaparecera  con  rapidez.  Este  patron  se  ve  claramente  en  la  siguiente 
ilustracion: 


X 

ft 

ft 

ft 

ft 

ft 

ft 

fto 

0.75 

ft 

0.75ft 

0.56ft 

0.42ft 

0.32ft 

0.24ft  •  • 

•  0.06ft 

0.25 

ft 

0.25ft 

0.06ft 

0.02ft 

0.004ft 

0.001ft  ■■ 

0.0 

Observe  estas  caracteristicas  del  esquema  de  Koyck:  1)  A1  suponer  valores  no  negativos  para 
X,  Koyck  elimina  la  posibilidad  de  que  las  ft  cambien  de  signo;  2)  al  suponer  que  X  <  1,  le  da  un 
menor  peso  a  las  ft  en  el  pasado  distante  que  a  las  actuales;  y  3)  asegura  que  la  suma  de  las  ft,  que 
proporciona  el  multiplicador  de  largo  plazo,  sea  finita,  a  saber, 

f>  =  A)(r^)  (17.4.2)12 

k=  0  v  7 


Como  resultado  de  (17.4.1),  el  modelo  de  rezagos  infinitos  (17.3.1)  se  escribe  como 

Yt  —  a  +  PqX,  +  PqXX,^\  +  PqX2X,_2  +  ■■■  +  ut  (1 7.4.3) 

Como  esta  planteado,  el  modelo  aun  no  es  adecuado  para  su  facil  estimacion,  pues  un  gran  nu- 
mero  (literalmente  infinito)  de  parametros  quedan  aun  por  estimar  y  el  parametro  X  ingresa  de 


12  Esto  se  debe  a  que 

=  /3o(1  +  7.  +  A2  +  A3H - )  =  fto  ^ 

porque  la  expresion  en  parentesis  en  el  lado  derecho  es  una  serie  geometrica  infinita  cuya  suma  es 
1  /(I  —  X)  siempre  y  cuando  0  <  X  <  1 .  A  proposito,  observe  que  si  ft  se  define  como  en  la  nota  1 1 , 
ft  =  ft  (1  —  k)/(1  —  a)  =  ft,  con  lo  que  se  asegura  que  las  ponderaciones  (1  —  X)Xk  sumen  uno. 


626 


Parte  Tres 


Temas  de  econometric t 


forma  por  completo  no  lineal:  en  sentido  estricto,  el  metodo  de  analisis  de  regresion  lineal  (en 
parametros)  no  puede  aplicarse  a  un  modelo  de  este  tipo.  Pero  ahora  Koyck  sugiere  una  forma 
ingeniosa  para  lograrlo.  Rezaga  (17.4.3)  en  un  periodo  para  obtener 


Y,_\  —  a  +  +  PqXX,_2  +  Pqa2  X i  +  •  •  ■  +  ut—\  (1 7.4.4) 


Luego  multiplica  (17.4.4)  por  k  para  obtener 


kYt_  i  —  ka  +  k/3oXf-i  +  Pok2X,-2  +  X,_2  +  •  •  ■  +  kut-\  (1  7.4.5) 


A1  restar  (17.4.5)  de  (17.4.3),  obtiene 


Yt  —  kYt- 1  —  a(l  —  A)  +  PoXt  +  (u,  —  kut~  i)  (17.4.6) 


o,  al  reordenar, 


Yt  =  a{\  -  k)  +  foX,  +  kYt_\  +  v,  (1 7.4.7) 


donde  v,  —  (u,  —  ku,  _  i)  es  un  promedio  movil  de  u,  y  w,_i . 

El  procedimiento  recien  descrito  se  conoce  como  transformacion  de  Koyck.  Al  comparar 
(17.4.7)  con  (17.3.1),  vemos  la  enorme  simplifteacion  que  logro  Koyck.  Mientras  que  antes  era 
preciso  estimar  a  y  un  numero  infinite  de  /),  ahora  solo  hay  que  estimar  tres  incognitas:  a,  /3q  y  k. 
Ahora  bien,  no  hay  razon  para  esperar  multicolinealidad.  En  cierto  sentido,  la  multicolinealidad 
se  resuelve  al  reemplazar  A,_i,  A,_2, .  .  . ,  por  una  variable  unica,  a  saber,  K_|.  Pero  observe  las 
siguientes  caracteristicas  de  la  transformacion  de  Koyck: 

1 .  Empezamos  con  un  modelo  de  rezagos  distribuidos  y  terminamos  con  un  modelo  autorregre- 
sivo  porque  7,_i  aparece  como  una  variable  explicativa.  Esta  transformacion  muestra  la  forma 
como  un  modelo  de  rezagos  distribuidos  se  “convierte”  en  un  modelo  autorregresivo. 

2.  Es  probable  que  la  aparicion  de  >7_i  cree  algunos  problemas  estadisticos.  Yt- al  igual  que 
Y,,  es  estocastica,  lo  cual  significa  que  tenemos  una  variable  explicativa  estocastica  en  el  mo¬ 
delo.  Recuerde  que  la  teorla  clasica  de  minimos  cuadrados  se  basa  en  el  supuesto  de  que  las 
variables  explicativas  son  no  estocasticas  o,  en  caso  de  serlo,  estan  distribuidas  independiente- 
mente  del  termino  de  perturbacion  estocastico.  Por  tanto,  debemos  averiguar  si  Y,_\  satisface 
este  supuesto.  (Volveremos  a  este  punto  en  la  seccion  17.8.) 

3.  En  el  modelo  original  (17.3.1),  el  termino  de  perturbacion  era  u,,  mientras  que  en  el  modelo 
transformado  es  v,  =  (u,  —  kut-\).  Las  propiedades  estadisticas  de  v,  dependcn  de  lo  que  se 
suponga  sobre  las  propiedades  estadisticas  de  ut,  pues,  como  veremos  mas  adelante,  si  las  u, 
originates  no  estan  serialmente  correlacionadas,  las  v,  estan  serialmente  correlacionadas.  Por 
consiguiente,  tal  vez  enfrentemos  el  problema  de  correlacion  serial  adicional  a  la  variable 
explicativa  estocastica  7<_i.  Haremos  esto  en  la  seccion  17.8. 

4.  La  presencia  de  la  Y rezagada  viola  un  supuesto  en  que  se  basa  la  prueba  d  de  Durbin- Watson. 
Por  consiguiente,  debemos  desarrollar  una  prueba  alterna  para  verificar  la  correlacion  serial 
en  presencia  de  una  Y  rezagada.  Una  alternativa  es  la  prueba  It  de  Durbin,  que  analizamos  en 
la  seccion  17.10. 

Como  vimos  en  (17.1.4),  las  sumas  parciales  de  las  ft,  estandarizadas  reflejan  la  proporcion 
del  impacto  de  largo  plazo,  o  total,  sentido  durante  un  cierto  periodo.  En  la  practica,  sin  embargo, 
con  el  rezago  medio  o  mediano  a  menudo  se  caracteriza  la  naturaleza  de  la  estructura  de  los 
rezagos  de  un  modelo  de  rezagos  distribuidos. 
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Mediana  de  los  rezagos 

La  mediana  de  los  rezagos  es  el  tiempo  requerido  para  la  primera  mitad,  o  50%,  del  cambio 
total  ocurrido  en  Y  como  consecuencia  de  un  cambio  unitario  sostenido  en  X.  Para  el  modelo  de 
Koyck,  la  mediana  de  los  rezagos  es  la  siguiente  (vease  el  ejercicio  17.6): 

Modelo  de  Koyck:  Mediana  de  los  rezagos  =  —  — ^ —  (1 7.4.8) 

log  X 

Asi,  si  X  =  0.2,  la  mediana  de  rezagos  es  0.4306,  pero  si  X  —  0.8,  la  mediana  de  rezagos  es 
3. 1067.  En  palabras,  en  el  primer  caso,  50%  del  cambio  total  en  Y se  logra  en  menos  de  la  mitad 
de  un  periodo,  mientras  que  en  el  ultimo  caso,  requiere  mas  de  3  periodos  para  alcanzar  el  cam¬ 
bio  de  50%.  Pero  este  contraste  no  debe  sorprender,  pues,  como  sabemos,  entre  mas  alto  sea 
el  valor  de  X  menor  sera  la  velocidad  del  ajuste,  y  entre  menor  sea  el  valor  de  X  mayor  sera  la 
velocidad  del  ajuste. 

Rezago  medio 

En  tanto  todas  las  ftk  sean  positivas,  el  rezago  medio  o  promedio  se  define  como 

y-oo  l-o 

Rezago  medio  =  ^ — -  (1 7.4.9) 

Lo  Pi¬ 
que  es  tan  solo  el  promedio  ponderado  de  todos  los  rezagos  participantes,  con  los  respectivos  co- 
eficientes  ft  como  ponderaciones.  En  resumen,  es  un  promedio  ponderado  rezagado  de  tiempo. 
Para  el  modelo  de  Koyck,  el  rezago  medio  es  (vease  el  ejercicio  17.7) 

Modelo  de  Koyck:  Rezago  medio  =  - -  (1 7.4.10) 

1  —  X 


Asi,  si  X  —  j,  el  rezago  medio  es  1 . 

De  la  exposicion  anterior,  es  claro  que  la  mediana  y  la  media  de  los  rezagos  sirven  como  me- 
dida  resumen  de  la  velocidad  con  la  cual  Y responde  a  X.  En  el  ejemplo  de  la  tabla  1 7. 1 ,  el  rezago 
medio  es  alrededor  de  1 1  trimestres,  lo  que  indica  que  se  requiere  algun  tiempo,  en  promedio, 
para  que  el  efecto  de  los  cambios  en  la  oferta  monetaria  se  sienta  en  los  cambios  de  precios. 


EJEMPLO  17.7 

Gasto  de  consumo 
personal  per  capita 
(GCPC)  e  ingreso 
disponible  personal 
per  capita  (IDPC) 


Este  ejemplo  analiza  el  gasto  de  consumo  personal  per  capita  (GCPC)  en  relacion  con  el  ingreso 
disponible  personal  per  capita  (IDPC)  en  Estados  Unidos  de  1959  a  2006;  todos  los  datos  estan 
en  dolares  de  2000.  Como  ilustracion  del  modelo  Koyck,  considere  los  datos  de  la  tabla  1  7.2. 
La  regresion  del  GCPC  sobre  el  IDPC  y  el  GCPC  rezagado  arrojo  los  resultados  que  se  presentan 
en  la  tabla  1  7.3. 

La  funcion  de  consumo  en  esta  tabla  se  denomina  funcion  de  consumo  de  corto  plazo.  En 
breve  derivaremos  la  funcion  de  consumo  de  largo  plazo. 

Con  el  valor  estimado  de  X  calculamos  los  coeficientes  de  los  rezagos  distribuidos.  Si  ftO  & 
0.2139,  jS-i  =  (0.2139)(0.7971)  «  0.1704,  ft2  =  (0.21  39)(0.7971  )2  «  0.0231,  y  asi  sucesiva- 
mente,  que  son  multiplicadores  de  corto  y  mediano  plazos.  Por  ultimo,  con  la  ecuacion  (1  7.4.2) 
obtenemos  el  multiplicador  de  largo  plazo,  es  decir,  el  efecto  total  del  cambio  del  ingreso  sobre 
el  consumo  despues  de  tomar  en  cuenta  todos  los  efectos  rezagados,  que  en  el  presente  ejem¬ 
plo  es: 


f>  =  4rb:)  =  ‘^(rroW)  “  1  0537 

(i continua ) 
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EJEMPLO  17.7 

TABLA  17.2 

GCPC  e  IDPC,  1959-2006 

(continuation) 

Ano 

GCPC 

IDPC 

Ano 

GCPC 

IDPC 

1959 

8  776 

9  685 

1983 

15  656 

17  828 

1960 

8  873 

9  735 

1984 

16  343 

19  011 

1961 

8  873 

9  901 

1985 

17  040 

19  476 

1962 

9  170 

10  227 

1986 

17  570 

19  906 

1963 

9  412 

10  455 

1987 

17  994 

20  072 

1964 

9  839 

11  061 

1988 

18  554 

20  740 

1965 

10  331 

11  594 

1989 

18  898 

21  120 

1966 

10  793 

12  065 

1990 

19  067 

21  281 

1967 

10  994 

12  457 

1991 

18  848 

21  109 

1968 

11  510 

12  892 

1992 

19  208 

21  548 

1969 

11  820 

13  163 

1993 

19  593 

21  493 

1970 

11  955 

13  563 

1994 

20  082 

21  812 

1971 

12  256 

14  001 

1995 

20  382 

22  153 

1972 

12  868 

14  512 

1996 

20  835 

22  546 

1973 

13  371 

15  345 

1997 

21  365 

23  065 

1974 

13  148 

15  094 

1998 

22  183 

24  131 

1975 

13  320 

15  291 

1999 

23  050 

24  564 

1976 

13  919 

15  738 

2000 

23  860 

25  469 

1977 

14  364 

16  128 

2001 

24  205 

25  687 

1978 

14  837 

16  704 

2002 

24  612 

26  217 

1979 

15  030 

16  931 

2003 

25  043 

26  535 

1980 

14  816 

16  940 

2004 

25  711 

27  232 

1981 

14  879 

17  217 

2005 

26  277 

27  436 

1982 

14  944 

17  418 

2006 

26  828 

28  005 

Notas:  GCPC  =  gasto  de  consumo  personal  per  capita,  en  dolares  de  2000,  ajustados  por  la  inflacion. 

IDPC  =  ingreso  disponible  per  capita,  en  dolares  de  2000,  ajustados  por  la  inflacion. 

Fuente:  Economic  Report  of  the  President,  2007,  tabla  B-31. 

TAB  LA  17.3 

Variable  dependiente :  GCPC 
Metodo :  Minimos  cuadrados 

Muestra  (ajustada) 

:  1960 

-2006 

Observaciones  incluidas: 

47  despues  de  los 

ajustes 

Coef iciente 

Error  estandar 

Estadistico  t 

Prob . 

c 

-252 

.9190 

157.3517 

-1 . 607348 

0 . 1151 

GCPC 

0 

.213890 

0 . 070617 

3 . 028892 

0 . 0041 

IDPC (-1) 

0 

.  797146 

0 . 073308 

10 . 87389 

0 . 0000 

R  cuadrada 

0 . 998216 

Media  de  la 

variable  dependiente 

16691.28 

R  cuadrada  ajustada 

0 . 998134 

Desviacion 

estandar  de  la 

Error  estandar  de 

la  regresion 

224 . 8504 

variable  dependiente 

5205 . 873 

Suma  de  cuadrados 

residual 

2224539. 

Criterio  de 

informacion  de 

Aka ike 

13 . 73045 

Log  verosimilitud 

-319.6656 

Criterio  de 

Schwarz 

13 . 84854 

Estadistico  F 

12306 . 99 

Criterio  de 

Hannan- Quinn 

13 . 77489 

Prob.  (estadistico 

F) 

0 . 000000 

Estadistico 

Durbin- Wat son 

0 . 961921 

Durbin  h  = 

3 . 8269* 

*Explicamos  el  calculo 

h  de  Durbin  en 

la  seccion  17 

.  10  . 
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EJEMPLO  17.7 

( continuation ) 


En  palabras,  un  incremento  sostenido  de  un  dolar  en  el  IDPC  producira  al  final  alrededor  de 
1.05  dolares  de  aumento  en  el  GCPC,  pero  el  impacto  inmediato,  o  de  corto  plazo,  es  de  solo 
21  centavos  de  dolar. 

La  funcion  de  consumo  de  largo  plazo  se  expresa  asf: 

GCPCt=  -1  247.1351  +  1.0537IDPQ 

Esto  se  obtiene  al  dividir  la  funcion  de  consumo  de  corto  plazo  presentada  en  la  tabla  1  7.3  entre 
0.2029  en  ambos  lados  y  eliminar  el  termino  de  IDPC  rezagado.13 

En  el  largo  plazo,  la  propension  marginal  a  consumir  (PMC)  es  alrededor  de  1 .  Esto  significa 
que  cuando  los  consumidores  tienen  tiempo  de  adaptarse  al  incremento  de  un  dolar  en  el  IDPC, 
aumentan  el  GCPC  casi  un  dolar.  En  el  corto  plazo,  sin  embargo,  como  muestra  la  tabla  17.3, 
la  PMC  es  de  solo  21  centavos.  ^Cual  es  la  razon  de  la  diferencia  entre  la  PMC  de  corto  y  largo 
plazos? 

La  respuesta  se  encuentra  en  los  rezagos  mediano  y  medio.  Con  X  =  0.7971,  el  rezago  me- 
diano  es: 


y  el  rezago  medio  es: 


log(2) 

log  X 


log(2) 

log(0.7971 ) 


3.0589 


1 


-  7 


3.9285 


Al  parecer,  el  GCPC  real  se  ajusta  al  IDPC  con  un  rezago  considerable:  recuerde  que  cuanto 
mayor  sea  el  valor  de  X  (entre  0  y  1),  mas  tiempo  tardara  en  sentirse  el  impacto  pleno  de  un 
cambio  en  el  valor  de  la  variable  explicativa  en  la  variable  dependiente. 


17.5  Racionalizacion  del  modelo  de  Koyck: 
modelo  de  expectativas  adaptativas 


Aunque  es  muy  claro,  el  modelo  de  Koyck  (17.4.7)  es  ad  hoc,  pues  se  obtuvo  mediante  un  pro- 
ceso  puramente  algebraico;  esta  desprovisto  de  cualquier  soporte  teorico.  Pero  esta  falla  se  com- 
pensa  si  empezamos  desde  otra  perspectiva.  Suponga  que  postulamos  el  siguiente  modelo: 

Y,  =  A)  +  PxX*  +  u,  (17.5.1) 


donde  Y  —  demanda  de  dinero  (balances  reales  de  efectivo) 

X*  —  tasa  de  interes  normal  o  esperada  de  largo  plazo  o  de  equilibrio,  u  optima 
u  —  termino  de  error 

La  ecuacion  (17.5.1)  postula  que  la  demanda  de  dinero  es  funcion  de  la  tasa  de  interes  esperada 
(es  decir,  anticipada). 

Como  la  variable  de  expectativas  X*  no  es  directamente  observable,  podemos  proponer  la 
siguiente  hipotesis  sobre  la  manera  de  conformar  las  expectativas: 

X*t  —  =  y(Xt  —  X^_x)  (17.5.2)14 


13  En  equilibrio,  todos  los  valores  de  GCPC  seran  iguales.  Por  tanto,  GCPCt  =  GCPQ^i.  Con  esta  sustitucion 
se  obtiene  la  funcion  de  consumo  de  largo  plazo. 

14Algunas  veces  el  modelo  se  expresa  como 

=x(Xt_, 
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donde  y,  tal  que  0  <  y  <  1,  se  conoce  como  coeficiente  de  expectativas.  La  hipotesis  (17.5.2)  se 
conoce  como  hipotesis  de  expectativas  adaptativas,  expectativas  progresivas  o  de  aprendizaje 
por  error,  popularizada  por  Cagan15  y  Friedman.16 

Lo  que  implica  (17.5.2)  es  que  los  “agentes  economicos  adaptaran  sus  expectativas  a  la  luz  de 
la  experiencia  pasada  y  que,  en  particular,  aprenderan  de  sus  errores”.17  De  modo  mas  especifico, 
(17.5.2)  establece  que  las  expectativas  se  corrigen  cada  periodo  por  una  fraccion  y  de  la  brecha 
entre  el  valor  actual  de  la  variable  y  su  valor  esperado  anterior.  Asi,  para  el  modelo  esto  signi- 
ficaria  que  las  expectativas  sobre  tasas  de  interes  son  corregidas  cada  periodo  por  una  fraccion 
y  de  la  discrepancia  entre  la  tasa  de  interes  observada  en  el  periodo  actual  y  lo  que  fue  su  valor 
anticipado  en  el  periodo  anterior.  Otra  forma  de  plantear  esto  seria  escribir  (17.5.2)  como 

X*  =  yX,  +  (l-y)X*_l  (17.5.3) 

lo  cual  muestra  que  el  valor  esperado  de  la  tasa  de  interes  en  el  tiempo  t  es  un  promedio  ponde- 
rado  del  valor  actual  de  la  tasa  de  interes  en  el  tiempo  t  y  su  valor  esperado  en  el  periodo  anterior, 
con  ponderaciones  de  y  y  1  —  y,  respectivamente.  Si,  y  =  1,  X*  —  Xt,  lo  cual  significa  que  las 
expectativas  se  cumplen  de  inmediato  y  en  forma  completa,  es  decir,  en  el  mismo  periodo.  Si, 
por  otra  parte,  y=0,X*  —  X*_ , ,  lo  que  significa  que  las  expectativas  son  estaticas,  es  decir,  “las 
condiciones  que  prevalecen  hoy  se  mantendran  en  todos  los  periodos  subsecuentes.  Los  valores 
futuros  esperados  se  identifican  entonces  con  los  valores  actuales”.18 

A1  sustituir  (17.5.3)  en  (17.5.1),  obtenemos 


Yt=P o  +  PilyXt  +  (1  -  Y)X*t- 1]  +  Ut 
—  Po  +  PiyXr  +  P\(\  —  y)Xf_l  +  ut 


(17.5.4) 


Ahora  rezague  (17.5.1)  un  periodo,  multipliquelo  por  1  —  y  y  reste  el  producto  de  (17.5.4).  Tras 
un  reordenamiento  algebraico  sencillo,  obtenemos 


Yt  =  yPo  +  YP \X,  +  (1  -  y)Y,- 1  +  ut  -  (1  -  y)ut- 1 
=  yPo  +  YP\Xt  +  (1  —  Y)Yt- 1  +  vt 


donde  v,  —  u,  —  ( 1  —  y)ut-\. 

Antes  de  continuar,  es  preciso  advertir  sobre  la  diferencia  entre  (17.5.1)  y  (17.5.5).  En  la 
primera,  f}\  mide  la  respuesta  promedio  de  Y  ante  un  cambio  unitario  en  X*,  el  valor  de  equili- 
brio  o  de  largo  plazo  de  X.  En  (17.5.5),  por  otra  parte,  yfi \  mide  la  respuesta  promedio  de  Y  ante 
un  cambio  unitario  en  el  valor  actual  u  observado  de  X.  Estas  respuestas  no  seran  las  mismas  a 
menos,  por  supuesto,  que  y  —  1,  es  decir,  que  los  valores  actuales  y  de  largo  plazo  de  X  sean  los 
mismos.  En  la  practica,  primero  estimamos  (17.5.5).  Una  vez  obtenida  una  estimacion  de  y  a 
partir  del  coeficiente  de  la  Y  rezagada,  podemos  calcular  /fi  con  facilidad,  al  dividir  el  coeficiente 
de  X,{—  yPi)  entre  y. 


15  P.  Cagan,  "The  Monetary  Dynamics  of  Hyperinflations",  en  M.  Friedman  (ed.),  Studies  in  the  Quantity 
Theory  of  Money,  University  of  Chicago  Press,  Chicago,  1956. 

16  Milton  Friedman,  A  Theory  of  the  Consumption  function,  National  Bureau  of  Economic  Research,  Princeton 
University  Press,  Princeton,  Nueva  Jersey,  1957. 

1 7  G.K.  Shaw,  Rational  Expectations:  An  Elementary  Exposition,  St.  Martin's  Press,  Nueva  York,  1 984,  p.  25. 

18  Ibid.,  pp.  19-20. 
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La  similitud  entre  el  modelo  de  expectativas  adaptativas  (17.5.5)  y  el  modelo  de  Koyck 
(17.4.7)  debe  verse  facilmente  aunque  las  interpretaciones  de  los  coeficientes  en  los  dos  modelos 
son  diferentes.  Observe  que,  como  el  modelo  de  Koyck,  el  de  expectativas  adaptativas  es  autorre- 
gresivo,  y  su  termino  de  error  es  similar  al  termino  de  error  de  Koyck.  Volveremos  a  la  estimation 
del  modelo  de  expectativas  adaptativas  en  la  seccion  17.8,  y  daremos  algunos  ejemplos  en  la 
section  17.12.  Ahora  que  delineamos  el  modelo  de  expectativas  adaptativas  (EA),  (',es  realista? 
Es  cierto  que  es  mas  atractivo  que  el  enfoque  de  Koyck  puramente  algebraico,  pero,  ,',es  razonable 
la  hipotesis  EA?  En  favor  de  la  hipotesis  EA  podemos  decir  lo  siguiente: 

Proporciona  un  medio  relativamente  simple  de  disenar  modelos  de  expectativas  en  la  teoria  eco¬ 
nomica  mientras  que,  a  la  vez,  postula  una  forma  de  comportamiento  por  parte  de  los  agentes 
economicos  que  parece  eminentemente  razonable.  La  creencia  de  que  la  gente  aprende  de  la  ex¬ 
perience  es,  desde  luego,  un  punto  de  partida  mas  razonable  que  el  supuesto  implicito  de  que  esta 
totalmente  desprovista  de  memoria,  caracteristica  de  la  tesis  de  expectativas  estaticas.  Ademas,  la 
afirmacion  de  que  las  experiences  mas  distantes  ejercen  un  efecto  menor  que  las  experiencias  mas 
recientes  coincide  con  el  sentido  comun  y  parece  bien  confirmada  por  la  simple  observation.19 

Hasta  la  llegada  de  la  hipotesis  de  expectativas  racionales  (ER),  planteada  primero  por  J. 
Muth  y  difundida  despues  por  Robert  Lucas  y  Thomas  Sargent,  la  hipotesis  EA  fue  muy  popular 
en  la  economia  empirica.  Los  proponentes  de  la  hipotesis  de  ER  sostienen  que  la  hipotesis  de  EA 
es  inadecuada  porque  la  formulation  de  expectativas  se  basa  tan  solo  en  los  valores  pasados  de 
una  variable,20  mientras  que  la  hipotesis  de  ER  supone  “que  los  agentes  economicos  individuales 
utilizan  informacion  actual  disponible  y  relevante  en  la  formacion  de  sus  expectativas  y  no  se 
apoyan  unicamente  en  la  experiencia  pasada”.21  En  resumen,  la  hipotesis  de  ER  sostiene  que  “las 
expectativas  son  ‘racionales’  en  el  sentido  de  que  incorporan  con  eficiencia  toda  la  informacion 
disponible  en  el  momenta  en  que  se  formulan  las  expectativas”22  y  no  solo  la  informacion  pa¬ 
sada. 

La  critica  dirigida  por  los  proponentes  de  las  ER  en  contra  de  la  hipotesis  de  EA  es  bien  reci- 
bida,  aunque  hay  muchas  criticas  a  la  propia  hipotesis  de  ER.22  Aqui  no  es  el  lugar  para  dejarse 
enredar  con  este  material  reciente.  Se  puede  o  no  estar  de  acuerdo  con  Stephen  McNees  en  que, 
“en  el  mejor  de  los  casos,  el  supuesto  de  las  expectativas  adaptativas  puede  defenderse  solo  como 
una  ‘hipotesis  de  trabajo’  o  aproximacion  a  un  mecanismo  de  formacion  de  expectativas  mas 
complejo,  quiza  cambiante”.24 


EJEMPLO  17.8 

Ejemplo  17.7 
reconsiderado 


Como  el  modelo  de  expectativas  adaptativas  se  basa  en  la  transformation  de  Koyck,  los  resul- 
tados  de  la  tabla  17.3  tambien  se  interpretan  en  terminos  de  la  ecuacion  (17.5.5).  Por  con- 
siguiente,  y  Po  =  —252.9190;  y  p i  =  0.21389  y  (1  —  y)  =  0.797146.  Asl,  el  coeficiente  de 
expectativas  y  ^  0.2028  y,  segun  el  analisis  anterior  sobre  el  modelo  de  EA,  podemos  decir  que 
alrededor  de  20%  de  la  discrepancia  entre  el  IDPC  real  y  el  esperado  se  elimina  en  el  transcurso 
de  un  ano. 


19  Ibid.,  p.  27. 

20  Al  igual  que  el  modelo  de  Koyck,  puede  demostrarse  que,  segun  EA,  las  expectativas  de  una  variable  son 
un  promedio  ponderado  exponencialmente  de  valores  pasados  de  dicha  variable. 

21  C.K.  Shaw,  op.  cit.,  p.  47.  Para  detalles  adicionales  de  la  hipotesis  de  ER,  vease  Steven  M.  Sheffrin,  Rational 
Expectations,  Cambridge  University  Press,  Nueva  York,  1983. 

22  Stephen  K.  McNees,  "The  Phillips  Curve:  Forward-  or  Backward-Looking?",  New  England  Economic  Review, 
julio-agosto  de  1979,  p.  50. 

23  Hay  una  evaluation  critica  reciente  de  la  hipotesis  de  ER  en  Michael  C.  Lovell,  "Test  of  the  Rational  Expec¬ 
tations  Hypothesis",  American  Economic  Review,  marzo  de  1 966,  pp.  1 1 0-1 24. 

24  Stephen  K.  McNees,  op.  cit.,  p.  50. 
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17.6  Otra  racionalizacion  del  modelo  de  Koyck: 

el  modelo  de  ajuste  de  existencias  o  de  ajuste  parcial 


El  modelo  de  expectativas  adaptativas  es  una  forma  de  racionalizar  el  modelo  de  Koyck.  Otra  ra¬ 
cionalizacion  es  la  de  Marc  Nerlove  con  el  modelo  de  ajuste  de  existencias  o  de  ajuste  parcial 
(MAP).25  Para  ilustrar  este  modelo,  considere  el  modelo  de  acelerador  flexible  de  la  teoria  eco¬ 
nomica,  que  supone  un  nivel  de  reservas  o  existencias  de  capital  de  equilibrio,  optimo,  deseado,  o 
de  largo  plazo  requerido  para  general-  una  produccion  dada  en  ciertas  condiciones  de  tecnologia, 
tasa  de  interes,  etc.  Por  simplicidad,  suponga  que  este  nivel  de  capital  deseado  Y*  es  una  funcion 
lineal  de  la  produccion  X  de  la  siguiente  manera: 

Y?=Po  +  PiX,  +  ut  (17.6.1) 

Como  el  nivel  deseado  de  capital  no  es  directamente  observable,  Nerlove  postula  la  siguiente 
hipotesis,  conocida  como  hipotesis  de  ajuste  parcial  o  ajuste  de  existencias: 


Y,  -  Yt_ !  =  8(Y*  -  Yt_x) 


(17.6.2)26 


donde  8,  tal  que  0  <  8  <  1,  se  conoce  como  coeficiente  de  ajuste  y  donde  Y,  —  Yt_\  —  cambio 
real,  y  (Y*  —  Y,_x)  cambio  deseado. 

Como  Y,  —  Yt_i,  el  cambio  en  las  existencias  de  capital  entre  dos  periodos,  no  es  otra  cosa  que 
la  inversion  (17.6.2)  se  escribe  tambien  como 

It  =  8{Y*  -  7(_j)  (17.6.3) 

donde  I,  —  inversion  en  el  periodo  t. 

La  ecuacion  (17.6.2)  postula  que  el  cambio  real  en  las  existencias  de  capital  (la  inversion)  en 
cualquier  momento  del  tiempo  t  es  alguna  fraction  8  del  cambio  deseado  durante  ese  periodo.  Si 
5=1,  significa  que  las  reservas  de  capital  real  son  iguales  a  las  deseadas;  es  decir,  las  reservas 
reales  se  ajustan  al  instante  (durante  el  mismo  periodo)  a  las  deseadas.  Sin  embargo,  si  8  —  0, 
significa  que  nada  cambia,  pues  las  existencias  reales  en  el  tiempo  t  son  las  mismas  que  las 
observadas  en  el  periodo  anterior.  De  hecho,  se  espera  que  8  se  encuentre  dentro  de  estos  extre- 
mos,  pues  es  probable  que  el  ajuste  a  las  existencias  deseadas  de  capital  sea  incompleto  debido 
a  rigideces,  inercia,  obligaciones  contractuales,  etc.,  de  aqui  el  nombre  de  modelo  de  ajuste 
parcial.  Observe  que  el  mecanismo  de  ajuste  (17.6.2)  tambien  se  escribe  como 

Yt  =  BY*  +  (1  —  S)Yt_\  (17.6.4) 

lo  cual  muestra  que  las  existencias  de  capital  observadas  en  el  tiempo  t  son  un  promedio  pon- 
derado  de  las  existencias  de  capital  deseado  en  ese  momento  y  de  las  existencias  de  capital 
observadas  en  el  periodo  anterior,  con  8  y  (1  —  8)  como  ponderaciones.  Ahora,  la  sustitucion  de 
(17.6.1)  en  (17.6.4)  da 


Yt  =  8(fto  +  plXt  +  ut)  +  (l-8)Yt-1 
=  8p0  +  8pxXt+(l-8)Yl-l  +  8u, 


(17.6.5) 


25  Marc  Nerlove,  Distributed  Lags  and  Demand  Analysis  for  Agricultural  and  Other  Commodities,  op.  cit. 
26Algunos  autores  no  agregan  el  termino  estocastico  de  error  ut  a  la  relacion  (1  7.6.1)  pero  lo  anaden  a  esta 
relacion,  en  la  creencia  de  que  si  la  primera  es  de  verdad  una  relacion  de  equilibrio,  el  termino  de  error  no 
tiene  fundamento,  mientras  que  el  mecanismo  de  ajuste  puede  ser  imperfecto  y  requerir  el  termino  de  per- 
turbacion.  A  proposito,  observe  que  (1 7.6.2)  se  escribe  algunas  veces  tambien  como 


Yt  -  Yt- 1  =  S( Yt*_i  -  Yt- 1 ) 
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FIGURA  17.6 

Ajuste  gradual  de  las  exis¬ 
tences  de  capital 
accionario. 


Este  modelo  se  denomina  modelo  de  ajuste  parcial  (MAP). 

Como  (17.6.1)  representa  la  demanda  de  reservas  de  capital  de  largo  plazo  o  de  equilibrio, 
(17.6.5)  puede  denominarse  la  funcion  de  demanda  de  reservas  de  capital  de  corto  plazo,  pues,  en 
el  corto  plazo  las  reservas  de  capital  existentes  pueden  no  ser  necesariamente  iguales  a  su  nivel 
en  el  largo  plazo.  Una  vez  estimada  la  funcion  de  corto  plazo  (17.6.5)  y  con  la  estimation  del 
coeficiente  de  ajuste  <5  (del  coeficiente  de  7,_i),  se  deriva  facilmente  la  funcion  de  largo  plazo 
tan  solo  al  dividir  8/3q  y  5/3i  entre  S  y  omitir  el  termino  rezagado  de  7,  lo  cual  dara  entonces 
(17.6.1). 

En  la  figura  17.6  presentamos,  en  terminos  geometricos  el  modelo  de  ajuste  parcial.27  En  esta 
figura,  Y*  son  las  existencias  deseadas  de  capital  y  >j  las  existencias  reales  de  capital  del  periodo 
en  curso.  Para  fines  ilustrativos  suponga  que  8  —  0.5.  Esto  implica  que  la  empresa  planea  cerrar  la 
mitad  de  la  brecha  entre  las  existencias  de  capital  reales  y  deseadas  cada  periodo;  asi,  en  el  primer 
periodo,  se  mueve  a  Yi,  con  una  inversion  igual  a  (72  —  7i)  que,  a  su  vez,  es  igual  a  la  mitad  de 
(7*  —  7i).  En  cada  periodo  subsiguiente,  esta  cierra  la  mitad  de  la  brecha  entre  las  existencias 
de  capital  a  principios  del  periodo  y  las  existencias  deseadas  de  capital  7*. 

El  modelo  de  ajuste  parcial  se  parece  a  los  modelos  de  Koyck  y  de  expectativas  adaptativas 
en  que  es  autorregresivo.  Sin  embargo,  tiene  un  termino  de  perturbacion  mucho  mas  sencillo:  el 
termino  de  perturbacion  original  u,  multiplicado  por  una  constante  8.  Pero  tenga  en  mente  que,  si 
bien  son  similares  en  apariencia,  los  modelos  de  expectativas  adaptativas  y  de  ajuste  parcial  son 
muy  diferentes  conceptualmente.  El  primero  se  basa  en  la  incertidumbre  (sobre  el  curso  futuro 
de  los  precios,  las  tasas  de  interes,  etc.),  mientras  que  el  ultimo  se  debe  a  rigideces  tecnicas  o 
institucionales,  a  la  inercia,  al  costo  del  cambio,  etc.  Sin  embargo,  en  teoria  ambos  modelos  son 
mucho  mas  solidos  que  el  modelo  de  Koyck. 

Como  en  apariencia  los  modelos  de  expectativas  adaptativas  y  de  ajuste  parcial  son  indistin- 
guibles,  el  coeficiente  y  de  0.2028  del  modelo  de  expectativas  adaptativas  tambien  se  interpreta 
como  coeficiente  8  del  modelo  de  ajuste  de  existencias  si  suponemos  que  el  ultimo  modelo  es 
operativo  en  el  presente  caso  (es  decir,  es  el  GCPC  deseado  o  esperado  el  que  esta  relacionado 
linealmente  con  el  IDPC  actual). 

El  punto  importante  es  que  el  modelo  de  Koyck,  el  de  expectativas  adaptativas  y  el  de  ajuste 
de  existencias  — aparte  de  la  diferencia  en  la  apariencia  del  termino  de  error —  al  final  producen 
el  mismo  modelo  estimado;  asi,  los  investigadores  deben  tener  gran  cuidado  al  decir  al  lector  que 
modelo  utilizan  y  por  que.  Por  tanto,  los  investigadores  deben  especificar  el  soporte  teorico  de 
sus  modelos. 


27  Adaptado  de  la  figura  7.4  de  Rudiger  Dornbusch  y  Stanley  Fischer,  Macroeconomics,  3a.  ed.,  McGraw-Hill, 
Nueva  York,  1984,  p.  216. 
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*17.7  Combinacion  de  los  modelos  de  expectativas  adaptativas 
y  de  ajuste  parcial 


Considere  el  siguiente  modelo: 


y;  =p0  +  P\X*  +  Ut 


(17.7.1) 


donde  Y*  —  existencias  de  capital  deseadas  y  X*  —  nivel  de  produccion  esperado. 

Como  ni  Y*  ni  X*  son  directamente  observables,  podemos  utilizar  el  mecanismo  de  ajuste  par¬ 
cial  para  Y*  y  el  modelo  de  expectativas  adaptativas  para  X*  a  fin  de  llegar  a  la  siguiente  ecuacion 
de  estimacion  (vease  el  ejercicio  17.2): 


Y,  =  PoSy  +  P\8yXt  +  [(1  -  y)  +  (1  -  5)]7,_r 
-  (1  -  5)(1  -  y)7,_ 2  +  [Sut  -  5(1  -  y)ut- 1] 
=  «o  +  ot\X,  +  c(2  Yf—\  +  a-}Yt-2  +  vf 


(17.7.2) 


donde  v,  —  8  [u,  —  (1  —  y)ut_{].  Este  modelo  es  tambien  autorregresivo  y  la  unica  diferencia  res- 
pecto  del  modelo  de  expectativas  puramente  adaptativas  consiste  en  que  Y,_ 2  aparece  junto  con 
Y,_  i  como  variable  explicativa.  A1  igual  que  los  modelos  de  Koyck  y  de  EA,  el  termino  de  error 
en  (17.7.2)  sigue  un  proceso  de  promedios  moviles.  Otra  caracteristica  de  este  modelo  es  que, 
aunque  el  modelo  es  lineal  en  las  ol,  no  es  lineal  en  los  parametros  originales. 

Una  aplicacion  conocida  de  (17.7.1)  es  la  hipotesis  del  ingreso  permanente  de  Friedman,  que 
plantea  que  el  consumo  “permanente”  o  de  largo  plazo  es  una  funcion  del  ingreso  “permanente” 
o  de  largo  plazo.28 

La  estimacion  de  (17.7.2)  presenta  los  mismos  problemas  de  estimacion  que  el  modelo  de 
Koyck  o  que  el  modelo  de  EA,  pues  todos  estos  modelos  son  autorregresivos  con  estructuras 
similares  de  error.  Ademas  (17.7.2)  implica  algunos  problemas  de  estimacion  no  lineal  que  con- 
sideraremos  brevemente  en  el  ejercicio  17.10  pero  no  trataremos  a  fondo  en  este  libro. 


17.8  Estimacion  de  modelos  autorregresivos 


(17.4.7) 


Expectativas  adaptativas 


Yt  —  yPo  +  yP\Xt  +  (1  —  y)Ff_i  +  [ut  —  (1  —  y)ut~i] 


(17.5.5) 


Ajuste  parcial 


Y,  =  Sp0  +  SPiX,  +  (1  -  5)7, _ i  +  5m, 


(17.6.5) 


*  Opcional. 

28  Milton  Friedman,  A  Theory  of  Consumption  Function,  Princeton  University  Press,  Princeton,  Nueva  Jersey, 
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Todos  estos  modelos  tienen  la  forma  comun  siguiente: 


Yt  —  oio  +  ot\X,  +  U2Y,_\  +  v,  (17.8.1) 

es  decir,  todos  son  autorregresivos  por  naturaleza.  Por  consiguiente,  debemos  ver  ahora  el  pro- 
blema  de  estimacion  de  dichos  modelos,  porque  los  mlnimos  cuadrados  clasicos  pueden  no  ser 
aplicables  directamente  a  ellos.  La  razon  es  doble:  la  presencia  de  variables  explicativas  esto- 
casticas  y  la  posibilidad  de  correlacion  serial. 

Ahora,  como  ya  mencionamos,  para  aplicar  la  teorla  clasica  de  mlnimos  cuadrados  debemos 
demostrar  que  la  variable  explicativa  estocastica  Y,_\  esta  distribuida  independientemente  del 
termino  de  perturbacion  v,.  Para  determinar  si  esto  es  asi,  es  esencial  conocer  las  propiedades  de 
vt.  Si  suponemos  que  el  termino  de  perturbacion  original  u,  satisface  todos  los  supuestos  clasicos, 
como  E(u,)  —  0,  var  (u,)  —  o2  (supuesto  de  homoscedasticidad)  y  cov  (iit,  u,+s )  —  0  para  s  ^  0 
(supuesto  de  no  autocorrelacion),  v,  puede  no  heredar  todas  estas  propiedades.  Considere,  por 
ejemplo,  el  termino  de  error  en  el  modelo  de  Koyck,  v,  =  (u,  —  7,u,_i).  Con  los  supuestos  sobre 
Ut,  podemos  demostrar  facilmente  que  v,  esta  serialmente  correlacionada  porque 

£(v,v,_i)  =  -Act2  (17.8.2)29 

que  es  diferente  de  cero  (a  menos  de  que  a  resulte  cero).  Y  como  Y,_  \  aparece  en  el  modelo  de 
Koyck  como  variable  explicativa,  esta  sujeta  a  estar  correlacionada  con  v,  (mediante  la  presencia 
de  ut-\  en  el).  De  hecho,  podemos  demostrar  que 


cov[Y,_i,  (u,  —  \ut_ i)]  =  —  Act2  (17.8.3) 

que  es  lo  mismo  que  (17.8.2).  El  lector  puede  verificar  que  sucede  lo  mismo  respecto  del  modelo 
de  expectativas  adaptativas. 

^Cual  es  la  implicacion  de  encontrar  que  en  el  modelo  de  Koyck,  al  igual  que  en  el  modelo  de 
expectativas  adaptativas,  la  variable  explicativa  estocastica  Yt-  \  esta  correlacionada  con  el  ter¬ 
mino  de  error  v,?  Como  ya  vimos,  si  una  variable  explicativa  en  un  modelo  de  regresion  esta 
correlacionada  con  el  termino  de  perturbacion  estocastico,  los  estimadores  MCO  no  solo 
estan  sesgados  sino  que,  ademas,  no  son  siquiera  consistentes;  es  decir,  aunque  el  tamano 
de  la  muestra  aumente  indefinidamente,  los  estimadores  no  se  aproximaran  a  sus  valores 
poblacionales  verdaderos.30  Por  consiguiente,  la  estimacion  de  los  modelos  de  Koyck  y  de 
expectativas  adaptativas  mediante  el  procedimiento  usual  de  MCO  puede  producir  resul- 
tados  muy  erroneos. 

Sin  embargo,  el  modelo  de  ajuste  parcial  es  diferente.  En  este  modelo,  vt  =  Sut,  donde 
0  <  S  <  1 .  Por  consiguiente,  si  a,  satisface  los  supuestos  del  modelo  clasico  de  regresion  lineal 
dados  antes,  igual  lo  hara  Yu,.  Por  tanto,  la  estimacion  por  MCO  del  modelo  de  ajuste  par¬ 
cial  dara  estimaciones  consistentes  aunque  las  estimaciones  tiendan  a  sesgarse  (en  muestras  Ani¬ 
tas  o  pequenas).31  Por  intuicion,  la  razon  de  la  consistencia  es:  aunque  Yt_\  depende  de  u,-\  y  de 


29  E (vtvt-i )=  E(ut-  lut- 1 )(ut- 1  -  X.ut-2) 

=  —  XE (ut-i  )2  porque  se  supone  que  las  covarianzas  entre  las  u  son  cero 

=  —X(72 

30  La  prueba  trasciende  el  alcance  de  este  libro  y  se  encuentra  en  Criliches,  op.  cit.,  pp.  36-38.  Sin  embargo, 
vease  en  el  capftulo  18  un  esquema  de  la  prueba  en  otro  contexto.  Vease  tambien  Asatoshi  Maeshiro, 
"Teaching  Regression  with  a  Lagged  Dependent  Variable  and  Autocorrelated  Disturbances",  The  journal  of 
Economic  Education,  invierno  de  1996,  vol.  27,  num.  1,  pp.  72-84. 

31  Hay  una  prueba  en  J.  Johnston,  Econometric  Methods,  3a.  ed.,  McGraw-Hill,  Nueva  York,  1984,  pp.  360- 
362.  Vease  ademas  H.E.  Doran  y  J.W.B.  Guise,  Single  Equation  Methods  in  Econometrics:  Applied  Regression 
Analysis,  University  of  New  England  Teaching  Monograph  Series  3,  Armidale,  Nueva  Gales  del  Sur,  Australia, 
1984,  pp.  236-244. 
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todos  los  terminos  de  perturbation  anteriores,  no  esta  relacionada  con  el  termino  de  error  actual 
w,.  Por  consiguiente,  siempre  que  u,  sea  serialmente  independiente,  7,_i  tambien  sera  indepen- 
diente  o  por  lo  menos  no  estara  correlacionada  con  ut,  lo  que  satisface  un  supuesto  importante  de 
MCO,  a  saber,  la  no  correlation  entre  la(s)  variable(s)  explicativa(s)  y  el  termino  de  perturbation 
estocastico. 

Aunque  la  estimation  por  MCO  del  modelo  de  ajuste  de  existencias,  o  parcial,  proporciona 
una  estimation  consistente  debido  a  la  estructura  simple  del  termino  de  error  en  un  modelo  asi, 
no  debemos  suponer  que  puede  aplicarse  en  lugar  del  modelo  de  Koyck  o  de  expectativas  adap- 
tativas.32  Se  aconseja  al  lector  no  hacerlo.  Un  modelo  debe  seleccionarse  con  base  en  considera- 
ciones  teoricas  solidas,  no  porque  genere  una  estimation  estadistica  sencilla.  Todo  modelo  debe 
considerarse  por  sus  propios  meritos,  con  la  debida  atencion  a  las  perturbaciones  estocasticas 
que  aparecen  en  ellos.  Si  en  modelos  como  el  de  Koyck  o  el  de  expectativas  adaptativas  no  es 
posible  aplicar  directamente  MCO,  se  deben  disenar  metodos  para  resolver  el  problema  de  esti¬ 
mation.  Existen  otros  metodos  de  estimacion,  aunque  algunos  son  computacionalmente  tediosos. 
En  la  siguiente  seccion  veremos  uno  de  estos  metodos. 


17.9  Metodo  de  variables  instrumentales  (VI) 


La  razon  por  la  cual  MCO  no  es  aplicable  al  modelo  de  Koyck  o  de  expectativas  adaptativas  es 
que  la  variable  explicativa  7,_i  tiende  a  estar  correlacionada  con  el  termino  de  error  vt.  Si  de 
alguna  manera  es  posible  eliminar  esta  correlation,  se  pueden  aplicar  MCO  para  obtener  esti- 
maciones  consistentes,  como  ya  mencionamos.  ( Nota :  Habra  algun  sesgo  de  muestra  pequena.) 
^Como  se  consigue  esto?  Liviatan  propuso  la  siguiente  solucion.33 

Supongamos  que  encontramos  una  variable  para  representar  Yt- 1  muy  correlacionada  con  E_i 
pero  no  con  vt,  donde  v,  es  el  termino  de  error  en  el  modelo  de  Koyck  o  en  el  de  expectativas 
adaptativas.  Tal  representation  se  denomina  variable  instrumental  (VI).34  Liviatan  sugicrc  Xt_\ 
como  variable  instrumental  para  E_i  y  ademas  que  los  parametros  de  la  regresion  (17.8.1)  se 
obtengan  al  resolver  las  siguientes  ecuaciones  normales: 

yt  —  n  «o + x, + «2  y^  y,_  i 

YYtx‘=&'  0J2x>+^J2X>+Se2J2Yt-lX'  (17.9.1) 

Y  y,x,„  i  =  &Qj2xt-' + 6nj2x‘xt-i + «2  Y>-ix‘-i 

Observe  que  si  aplicasemos  MCO  directamente  a  (17.8.1),  las  ecuaciones  normales  de  MCO 
usuales  serian  (vease  la  seccion  7.4) 

/  ,  Yt  —  nap  +  6i|  )  X,  +  a2  )  Yt_ \ 

J2  Y>x>  =u0J2x>+“iJ2X>+&2I2  Y'-^X’  (!  7.9.2) 

Y,  =  “o  Y Y + “i  YX>Y‘ -1 + «2  Y  7'2-i 

La  diferencia  entre  los  dos  conjuntos  de  ecuaciones  normales  debe  verse  facilmente.  Liviatan 
demostro  que  las  a  estimadas  a  partir  de  (17.9.1)  son  consistentes  mientras  que  las  estimadas  de 


32  Asimismo,  como  menciona  J.  Johnston  (op.  cit.,  p.  350),  "[el]  patron  de  ajuste  [sugerido  por  el  modelo  de 
ajuste  parcial],  .  .  algunas  veces  puede  no  ser  razonable". 

33  N.  Liviatan,  "Consistent  Estimation  of  Distributed  Lags",  International  Econometric  Review,  vol.  4,  enero  de 
1963,  pp.  44-52. 

34  Estas  variables  instrumentales  son  frecuentes  en  modelos  de  ecuaciones  simultaneas  (vease  el  capftulo  20). 
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(17.9.2)  pueden  no  serlo  porque  Yt_\  y  v,[—  it,  —  o  u,  —  (1  —  y)ut- 1]  pueden  estar  correla- 
cionadas,  mientras  que  A,  y  X,_\  no  estan  correlacionadas  con  vt.  (^Por  que?) 

Aunque  en  la  practica  es  facil  aplicarla  una  vez  encontrada  una  variable  representante  apro- 
piada,  es  probable  que  la  tecnica  de  Liviatan  presente  el  problema  de  multicolinealidad  debido  a 
que  es  factible  que  X,  y  Xt_\,  que  forman  parte  de  las  ecuaciones  normales  de  (17.9.1),  esten  muy 
correlacionadas  (como  mencionamos  en  el  capitulo  12,  es  habitual  que  la  mayoria  de  las  series 
de  tiempo  economicas  presenten  un  alto  grado  de  correlacion  entre  valores  sucesivos).  La  impli¬ 
cation,  entonces,  es  que,  si  bien  el  procedimiento  de  Liviatan  genera  estimaciones  consistentes, 
es  probable  que  los  estimadores  sean  ineficientes.35 

Antes  de  continuar,  la  pregunta  obvia  es  /,como  encontrar  una  “buena”  variable  representante 
para  Yt_ j,  de  manera  que,  aunque  este  muy  correlacionada  con  Yt_  j,  no  lo  este  con  v,?  Hay  algu- 
nas  sugerencias  en  la  bibliografia,  que  consideraremos  aqui  en  forma  de  ejercicio  (vease  el  ejerci- 
cio  17.5).  Pero  debe  afirmarse  que  no  siempre  es  facil  encontrar  buenas  variables  representante s, 
en  cuyo  caso  el  metodo  de  VI  es  de  poca  utilidad  practica  y  puede  ser  necesario  recurrir  a  las 
tecnicas  de  estimacion  de  maxima  verosimilitud,  que  trascienden  el  alcance  de  este  libro.36 

^Existe  alguna  prueba  para  averiguar  si  el  (las)  variable(s)  instrumental(es)  es  (son)  valida(s)? 
Dennis  Sargan  elaboro  una  prueba,  la  prueba  SARG,  con  este  proposito,  que  describimos  en  el 
apendice  17A,  section  17A.1. 


17.10 


Deteccion  de  autocorrelacion  en  modelos  autorregresivos: 
prueba  h  de  Durbin 


Como  vimos,  la  probable  correlacion  serial  en  los  errores  v,  complica  un  poco  el  problema  de 
estimacion  en  el  modelo  autorregresivo:  en  el  modelo  de  ajuste  de  existencias,  el  termino  de  error 
v,  no  tenia  correlacion  serial  (de  primer  orden)  cuando  el  termino  de  error  u,  en  el  modelo  original 
no  estaba  serialmente  correlacionado,  mientras  que  en  los  modelos  de  Koyck  y  de  expectativas 
adaptativas,  v,  estaba  serialmente  correlacionado  aunque  u,  fuera  serialmente  independiente.  La 
pregunta  entonces  es  (',como  saber  si  hay  correlacion  serial  en  el  termino  de  error  que  aparece  en 
los  modelos  autorregresivos? 

Como  vimos  en  el  capitulo  12,  el  estadistico  d  de  Durbin- Watson  no  sirve  para  detectar  corre¬ 
lacion  serial  (de  primer  orden)  en  modelos  autorregresivos  porque  el  valor  d  calculado  en  tales 
modelos  por  lo  general  tiende  a  2,  que  es  el  valor  de  d  esperado  en  una  secuencia  verdaderamente 
aleatoria.  En  otras  palabras,  si  calculamos  el  estadistico  d  para  tales  modelos  en  la  forma  habi¬ 
tual,  se  forma  un  sesgo  inherente  que  impide  descubrir  la  correlacion  serial  (de  primer  orden). 
A  pesar  de  esto,  muchos  investigadores  calculan  el  valor  d  por  falta  de  algo  mejor.  Sin  embargo, 
hace  poco  Durbin  mismo  propuso  una  prueba  de  muestras  grandes  para  la  correlacion  serial  de 
primer  orden  en  modelos  autorregresivos.37  Esta  prueba  se  llama  estadistico  h. 

Ya  analizamos  la  prueba  h  de  Durbin  en  el  ejercicio  12.36.  Por  conveniencia,  reproducimos  el 
estadistico  h  (con  un  ligero  cambio  en  la  notation): 


h  = 


P 


n 

1  -  n[var(d2)] 


(17.10.1) 


35  Para  ver  la  forma  de  mejorar  la  eficiencia  de  los  estimadores,  consulte  Lawrence  R.  Klien,  A  Textbook  of 
Econometrics,  2a.  ed.,  Prentice-Hall,  Englewood  Cliffs,  Nueva  Jersey,  1974,  p.  99.  Vease  tambien  William  H. 
Greene,  Econometric  Analysis,  Macmillan,  2a.  ed.,  Nueva  York,  1993,  pp.  535-538. 

36  Hay  un  analisis  condensado  de  los  metodos  de  MV  en  J.  Johnston,  op.  cit.,  pp.  366-371,  al  igual  que  en  el 
apendice  4A  y  el  apendice  1 5A. 

37  J.  Durbin,  "Testing  for  Serial  Correlation  in  Least-Squares  Regression  When  Some  of  the  Regressors  Are 
Lagged  Dependent  Variables",  Econometrica,  vol.  38,  1970,  pp.  410-421. 
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donde  n  =  tamano  de  la  muestra,  var(a2)  =  varianza  del  coeficiente  de  la  variable  rezagada 
Y,  (=7,_ i)  en  (17.8.1),  y  p  es  la  estimation  de  p,  la  correlation  serial  de  primer  orden  analizada 
en  el  capitulo  12. 

Como  mencionamos  en  el  ejercicio  12.36,  para  una  muestra  grande,  Durbin  demostro  que, 
segun  la  hipotesis  nula  de  que  p  —  0,  el  estadistico  h  de  la  ecuacion  (17.10.1)  sigue  la  distribution 
normal  estandarizada.  Es  decir, 


^asin  ~  N(0,  1) 


(17.10.2) 


donde  asin  significa  asintoticamente. 

En  la  practica,  como  vimos  en  el  capitulo  12,  p  se  calcula  de  la  siguiente  manera: 

p~\-d-  (17.10.3) 

Es  interesante  observar  que  aunque  la  d  de  Durbin  no  sirve  para  probar  la  autocorrelation  en  los 
modelos  autorregresivos,  si  puede  emplearse  como  dato  para  determinar  el  estadistico  h. 

Ilustraremos  el  uso  del  estadistico  h  con  el  ejemplo  17.7.  En  dicho  ejemplo,  n  —  47,  /)  ~  ( 1  — 
d/2)  =  0.5190  ( Nota :  d  =  0.9619),  y  var(a2)  =  var(GCPC,_i)  =  (0.0733)2  =  0.0053.  A1  sustituir 
esos  valores  en  (17.10.1),  obtenemos 


h  —  0.5190  / - =4.1061  (17.10.4) 

Y  1  -  47(0.0053)  v  ’ 

Como  este  valor  h  sigue  una  distribucion  normal  estandarizada  segun  la  hipotesis  nula,  es  muy 
pequena  la  probabilidad  de  obtener  un  valor  h  tan  alto.  Recuerde  que  la  probabilidad  de  que 
una  variable  normal  estandar  rebase  el  valor  de  ±3  es  muy  reducida.  Asi,  en  este  ejemplo,  la 
conclusion  es  que  hay  autocorrelation  (positiva).  Por  supuesto,  es  necesario  tener  presente  que  h 
sigue  la  distribucion  normal  estandarizada  asintoticamente.  La  muestra  de  47  observaciones  es 
razonablemente  grande. 

Observe  estas  caracteristicas  del  estadistico  h : 

1.  No  importa  cuantas  variables  X  o  cuantos  valores  rezagados  de  Y  se  incluyan  en  el  modelo 
de  regresion.  Para  calcular  h  debemos  considerar  solo  la  varianza  del  coeficiente  del  rezago 
Yt-i. 

2.  La  prueba  no  es  aplicable  si  [n  var(d2)]  es  superior  a  1.  (j'.Por  que?)  En  la  practica,  sin  em¬ 
bargo,  no  es  usual  que  esto  suceda. 

3.  Como  se  trata  de  una  prueba  de  muestras  grandes,  su  aplicacion  en  muestras  pequenas  no 
se  justifica  del  todo,  como  demuestran  Inder38  y  Kiviet.39  Se  ha  sugerido  que  la  prueba  de 
Breusch-Godfrey  (BG),  tambien  conocida  como  prueba  del  multiplicador  de  Lagrange,  anali¬ 
zada  en  el  capitulo  12,  es  estadisticamente  mas  potente,  no  solo  en  las  muestras  grandes,  sino 
tambien  en  muestras  finitas,  o  pequenas,  y,  por  consiguiente,  es  preferible  a  la  prueba  /?.40 

La  conclusion  basada  en  la  prueba  h  que  el  modelo  sufre  de  autocorrelation  se  confirma  con  la 
prueba  de  Breusch-Godfrey  (BG),  que  se  muestra  en  la  ecuacion  (12.6.17).  Con  los  siete  valores 
rezagados  de  los  residuos  estimados  de  la  regresion  de  la  tabla  17.3,  la  prueba  BG  ilustrada  en 


38  B.  Inder,  "An  Approximation  to  the  Null  Distribution  of  the  Durbin-Watson  Statistic  in  Models  Containing 
Lagged  Dependent  Variables",  Econometric  Theory,  vol.  2,  num.  3,  1986,  pp.  413-428. 

39  J.F.  Kiviet,  "On  the  Vigour  of  Some  Misspecification  Tests  for  Modelling  Dynamic  Relationships",  Review  of 
Economic  Studies,  vol.  53,  num.  173,  1986,  pp.  241-262. 

40  Gabor  Korosi,  Laszlo  Matyas  e  Istvan  P.  Szekely,  Practical  Econometrics,  Ashgate,  Brookfield,  Vermont,  1992, 
p.  92. 
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TAB  LA  17.4 

Variable  dependiente :  GCP 
Metodo:  Minimos  cuadrados 
Muestra  (ajustada) :  1960-2006 

Observaciones  incluidas :  47  despues  de  los  ajustes 

Errores  estandar  CHA  Newey-West  y  covarianza  (truncamiento  de  rezago  =  3) 


Coef iciente 

Error  estandar 

Estadistico  t 

Prob . 

c 

-252 . 9190 

168.4610 

-1.501350 

0 . 1404 

IDPC 

0.213890 

0 . 051245 

4 . 173888 

0 . 0000 

GCPC  (-1) 

0 .797146 

0 . 051825 

15.38148 

0 . 0000 

R  cuadrada 

0 . 998216 

Media  de  la 

variable  dependiente 

16691 .28 

R  cuadrada  ajustada 

0 . 998134 

Desviacion 

estandar  de  la 

Error  estandar  de 

la  regresion 

224 . 8504 

variable 

dependiente 

5205 .873 

Suma  de  cuadrados 

residual 

2224539 . 

Criterio  de 

informacion  de  Akaike 

13 . 73045 

Log  verosimilitud 

-319 . 6656 

Criterio  de 

Schwarz 

13 . 84854 

Estadistico  F 

12306 . 99 

Criterio  de 

Hannan - Qu i nn 

13 .77489 

Prob.  (estadistico  F ) 

0 . 000000 

Estadistico 

Durbin- Wat son 

0 . 961921 

la  ecuacion  (12.6.18)  obtuvo  un  valor  y2  de  15.3869.  Para  siete  grados  de  libertad  (el  numero  de 
residuos  rezagados  en  la  prueba  BG),  la  probabilidad  de  obtener  un  valor  ji  cuadrada  de  15.38  o 
mayor  es  de  aproximadamente  3%,  que  es  muy  baja. 

Por  esta  razon  es  necesario  corregir  los  errores  estandar  que  aparecen  en  la  tabla  17.3,  lo  cual 
se  efectua  con  el  procedimiento  CHA  de  Newey-West,  estudiado  en  el  capitulo  12.  Los  resulta- 
dos  se  presentan  en  la  tabla  17.4. 

A1  parecer,  MCO  subestima  los  errores  estandar  de  los  coeficientes  de  regresion. 


17.11  Ejemplo  numerico:  demanda  de  dinero  en  Canada 
de  1-1979  a  IV-1988 


Para  ilustrar  la  utilization  de  los  modelos  que  hemos  visto  hasta  este  momenta,  tenga  en  cuenta 
una  de  las  primeras  aplicaciones  emplricas,  a  saber,  la  demanda  de  dinero  (o  saldos  reales  de 
efectivo).  En  particular,  considere  el  siguiente  modelo:41 

M*  —  PoR^'Y^e11'  (17.11.1) 

donde  M*  —  demanda  de  dinero  (saldos  reales  de  efectivo)  deseada,  o  de  largo  plazo 
R,  —  tasa  de  interes  a  largo  plazo,  % 

Y,  —  ingreso  nacional  real  agregado 

Para  la  estimation  estadistica  (17.11.1)  se  expresa  convenientemente  en  forma  logaritmica 
como 


In  M*  =  In  /30  +  Pi  In  R ,  +  fa  In  Y,  +  u,  (1 7.1 1 .2) 


41  Para  un  modelo  similar,  vease  Gregory  C.  Chow,  "On  the  Long-Run  and  Short-Run  Demand  for  Money", 
Journal  of  Political  Economy,  vol.  74,  num.  2,  1 966,  pp.  111-131.  Observe  que  una  ventaja  de  la  funcion 
multiplicativa  es  que  los  exponentes  de  las  variables  proporcionan  estimaciones  directas  de  las  elasticidades 
(vease  el  capftulo  6). 
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Como  la  variable  de  demanda  deseada  no  es  observable  directamente,  suponga  la  hipotesis  de 
ajuste  de  existencias,  a  saber, 


M,  _  /  M*  y 
Mt-i  \M,.J 


0  <  8  <  1 


(17.11.  3) 


La  ecuacion  (17.1 1.3)  establece  que  un  porcentaje  constante  (<ytor  que?)  de  la  discrepancia  entre 
los  saldos  reales  de  efectivo  observados  y  los  deseados  se  elimina  en  un  solo  periodo  (ano).  En 
forma  logarltmica,  la  ecuacion  (17.11.3)  se  expresa  como 


\nM,  -lnM,_j  =  S(lnM*  -  In M,_x)  (17.11.4) 

A1  sustituir  In  M*  de  (17.11.2)  en  la  ecuacion  (17.1 1.4)  y  reordenar,  obtenemos 

In M,  =  8  In /30  +  £i<5  In  R ,  +  ^<5  In  Y,  +  ( 1  -  S)  In  Af,_i  +  Su,  (1 7.11 ,5)42 


que  puede  denominarse  la  funcion  de  demanda  de  dinero  de  corto  plazo.  (,',Por  que?) 

Como  una  ilustracion  de  la  demanda  de  saldos  reales  de  efectivo  de  corto  y  largo  plazos,  con- 
sidere  los  datos  de  la  tabla  17.5.  Tales  datos  trimestrales  pertenecen  a  Canada,  de  1979  a  1988. 
Las  variables  se  definen  de  la  siguiente  forma:  M  [como  se  definio  por  la  oferta  de  dinero  Ml,  en 
dolares  canadienses  (CS),  millones],  P  (deflactor  de  precio  implicito,  1981  =  100),  P1B  a  precios 
constantes  de  1981  (C$,  millones)  y  R  (tasa  de  interes  corporativa  preferencial  a  90  dias,  %).43 
P  tuvo  un  efecto  de  deflacion  sobre  Ml,  a  fin  de  tener  las  cifras  de  los  saldos  de  efectivo  reales. 
A  priori,  se  espera  que  la  demanda  de  dinero  real  tenga  una  relacion  positiva  con  el  PIB  (efecto 
de  ingreso  positivo)  y  una  negativa  con  R  (mientras  mayor  sea  la  tasa  de  interes,  mayor  sera  el 
costo  de  oportunidad  de  poseer  dinero,  en  vista  de  que  el  dinero  Ml  paga  muy  poco  interes,  si 
llega  a  pagar  alguno). 

Los  resultados  de  la  regresion  fueron  los  siguientes:44 

lnM,  =  0.8561  -  0.06341n7?,-  0.0237  In  PIB,  +  0.96071nM,_! 

ee  =  (0.5101)  (0.0131)  (0.0366)  (0.0414) 

*=(1.6782)  (-4.8134)  (-0.6466)  (23.1972) 

R2  =  0.9482  d=  2.4582  7^=213.7234  (17.11.6) 


La  funcion  de  demanda  de  corto  plazo  estimada  muestra  que  la  elasticidad  del  interes  de  corto 
plazo  tiene  el  signo  apropiado  y  que  es  estadisticamente  muy  significativa,  debido  a  que  su  valor 
p  es  casi  cero.  Sorprendentemente,  la  elasticidad  del  ingreso  de  corto  plazo  resulta  negativa,  a 
pesar  de  que  desde  un  punto  de  vista  estadistico  no  es  diferente  de  cero.  El  coeficiente  de  ajuste 
es  S  =  (1  —  0.9607)  =  0.0393,  lo  cual  implica  que  solo  cerca  de  4%  de  la  discrepancia  entre  el 
saldo  de  efectivo  real  y  el  deseado  se  elimina  en  un  trimestre,  un  ajuste  muy  lento. 


42  A  proposito,  observe  que  este  modelo  es  en  esencia  no  lineal  en  los  parametros.  Por  consiguiente,  aunque 
MCO  puede  generar  una  estimacion  insesgada  de,  por  ejemplo,  p-\8  tornado  en  conjunto,  puede  no  dar  es- 
timaciones  insesgadas  de  p-\  y  8  individualmente,  sobre  todo  si  la  muestra  es  pequena. 

43  Estos  datos  provienen  de  B.  Bhaskar  Rao  (ed.),  Cointegration  for  the  Applied  Economist,  St.  Martin's  Press, 
Nueva  York,  1994,  pp.  210-21  3.  Los  datos  originales  abarcan  del  primer  trimestre  de  1956  al  cuarto  de 

1 988,  pero  para  propositos  de  ejemplificacion  comenzamos  el  analisis  desde  el  primer  trimestre  de  1 979. 

44  Observe  esta  caracterfstica  de  los  errores  estandar  estimados.  El  error  estandar  de,  por  ejemplo,  el  coefi¬ 
ciente  del  In  /?,  se  refiere  al  error  estandar  de  *L|<5,  que  es  un  estimador  de  ft^S.  No  existe  una  forma  sencilla 
de  obtener  los  errores  estandar  de  y  8  de  manera  individual,  a  partir  del  error  estandar  de  p-\  8,  sobre 
todo  si  la  muestra  es  relativamente  pequena.  No  obstante,  para  muestras  grandes,  los  errores  estandar 
individuales  de  /§i  y  8  se  obtienen  de  manera  aproximada,  pero  los  calculos  resultan  intrincados.  Vease  Jan 
Kmenta,  Elements  of  Econometrics,  Macmillan,  Nueva  York,  1 971,  p.  444. 
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TAB  LA  17.5 

Dinero,  tasa  de  interes, 
indice  de  precios  y  PIB, 
Canada 

Fuente:  Rao,  op.  cit.,  pp.  210-213. 


Observation 

Ml 

R 

P 

PIB 

1979-1 

22  175.00 

11.13333 

0.77947 

334  800 

1979-2 

22  841.00 

11.16667 

0.80861 

336  708 

1979-3 

23  461.00 

11.80000 

0.82649 

340  096 

1979-4 

23  427.00 

14.18333 

0.84863 

341  844 

1980-1 

23  811.00 

14.38333 

0.86693 

342  776 

1980-2 

23  612.33 

12.98333 

0.88950 

342  264 

1980-3 

24  543.00 

10.71667 

0.91553 

340  716 

1 980-4 

25  638.66 

14.53333 

0.93743 

347  780 

1981-1 

25  316.00 

17.13333 

0.96523 

354  836 

1981-2 

25  501.33 

18.56667 

0.98774 

359  352 

1981-3 

25  382.33 

21.01666 

1.01314 

356  152 

1981-4 

24  753.00 

16.61665 

1.03410 

353  636 

1982-1 

25  094.33 

15.35000 

1.05743 

349  568 

1982-2 

25  253.66 

16.04999 

1.07748 

345  284 

1982-3 

24  936.66 

14.31667 

1.09666 

343  028 

1982-4 

25  553.00 

10.88333 

1.11641 

340  292 

1983-1 

26  755.33 

9.616670 

1.12303 

346  072 

1983-2 

27  412.00 

9.316670 

1.13395 

353  860 

1983-3 

28  403.33 

9.333330 

1.14721 

359  544 

1983-4 

28  402.33 

9.550000 

1.16059 

362  304 

1984-1 

28  715.66 

10.08333 

1.17117 

368  280 

1 984-2 

28  996.33 

11.45000 

1 .1  7406 

376  768 

1984-3 

28  479.33 

12.45000 

1.17795 

381  016 

1 984-4 

28  669.00 

10.76667 

1.18438 

385  396 

1985-1 

29  018.66 

10.51667 

1.18990 

390  240 

1985-2 

29  398.66 

9.666670 

1.20625 

391  580 

1985-3 

30  203.66 

9.033330 

1.21492 

396  384 

1985-4 

31  059.33 

9.016670 

1.21805 

405  308 

1986-1 

30  745.33 

11.03333 

1 .22408 

405  680 

1986-2 

30  477.66 

8.733330 

1.22856 

408  1 1 6 

1986-3 

31  563.66 

8.466670 

1.23916 

409  1 60 

1 986-4 

32  800.66 

8.400000 

1.25368 

409  616 

1987-1 

33  958.33 

7.250000 

1.27117 

416  484 

1987-2 

35  795.66 

8.300000 

1 .28429 

422  916 

1987-3 

35  878.66 

9.300000 

1.29599 

429  980 

1987-4 

36  336.00 

8.700000 

1.31001 

436  264 

1988-1 

36  480.33 

8.616670 

1.32325 

440  592 

1988-2 

37  108.66 

9.133330 

1.33219 

446  680 

1988-3 

38  423.00 

10.05000 

1.35065 

450  328 

1 988-4 

38  480.66 

10.83333 

1.36648 

453  516 

Notas:  Ml  =  C$,  millones. 

P  =  deflactor  implicito  de  precios  (1981  =  100). 

R  =  tasa  de  interes  corporativa  preferencial  a  90  dias,  %. 
PIB  =  C$,  millones  (precios  de  1981). 


A  fin  de  volver  a  obtener  la  funcion  de  demanda  de  largo  plazo  (17.11.2),  solo  se  necesita 
dividir  la  funcion  de  demanda  de  corto  plazo  entre  S  (^por  que?)  y  eliminar  el  termino  In  Mt_\. 
Los  resultados  son: 

h\Mf  —  21.7888  —  1.61321n/J,  -  0.60301nPIB  (17.11. 7)45 


45  Note  que  no  presentamos  los  errores  estandar  de  los  coeficientes  estimados  por  las  razones  dadas  en  la 
nota  44. 
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Como  se  observa,  la  elasticidad  del  interes  de  largo  plazo  para  la  demanda  de  dinero  es  sustan- 
cialmente  mas  grande  (en  terminos  absolutos)  que  la  correspondiente  a  la  elasticidad  de  corto 
plazo,  lo  cual  tambien  se  cumple  para  la  elasticidad  de  ingreso,  aunque  en  el  presente  ejemplo  su 
significancia  economica  y  estadistica  es  dudosa. 

Observe  que  la  d  de  Durbin- Watson  estimada  es  de  2.4582,  valor  muy  cercano  a  2,  lo  cual 
apoya  la  observation  anterior  respecto  de  que  en  los  modelos  autorregresivos  la  d  calculada  por 
lo  general  esta  proxima  a  2.  En  consecuencia,  no  debemos  confiar  en  la  d  calculada  para  ave- 
riguar  si  existe  correlacion  serial  en  los  datos.  El  tamano  de  la  muestra  para  este  caso  es  de  40 
observaciones,  lo  cual  es  razonablemente  grande  para  aplicar  la  prueba  h.  En  este  ejemplo,  el 
lector  puede  verificar  que  el  valor  h  estimado  es  —1.5008,  que  no  resulta  significativo  en  el  ni- 
vel  de  5%,  con  lo  cual  quiza  se  sugiere  que  no  existe  autocorrelacion  de  primer  orden  en  el 
termino  de  error. 


17.12  Ejemplos  ilustrativos 


En  esta  seccion  presentamos  algunos  ejemplos  de  modelos  de  rezagos  distribuidos  para  mostrar 
la  forma  como  los  investigadores  los  utilizan  en  estudios  empiricos. 


EJEMPLO  17.9 

La  Reserva  Federal 
y  la  tasa  de  interes 
real 


Para  evaluar  el  efecto  del  crecimiento  de  Ml  (circulante  +  depositos  a  la  vista)  sobre  la  tasa  de 
interes  real  de  los  bonos  Aaa,  G.  ).  Santoni  y  Courtenay  C.  Stone46  estimaron,  con  informacion 
mensual,  el  siguiente  modelo  de  rezagos  distribuidos  para  Estados  Unidos. 

ii 

rt  =  constante  +  ^  o,  Mt~i  +  u\  (17.12.1) 

(=0 

donde  rt  =  fndice  de  rendimiento  de  los  bonos  Aaa  de  Moody  menos  la  tasa  de  cambio  prome- 
dio  anual  en  el  fndice  de  precios  al  consumidor  ajustado  estacionalmente  durante  los  36  meses 
anteriores,  que  sirve  como  medida  de  la  tasa  de  interes  real,  y  Mt  =  crecimiento  mensual  de 
M,. 

De  acuerdo  con  la  "doctrina  de  la  neutralidad  del  dinero",  las  variables  economicas  reales 
— como  produccion,  empleo,  crecimiento  economico  y  tasa  de  interes  real —  no  reciben  influen¬ 
ce  permanente  del  crecimiento  monetario  y,  por  consiguiente,  no  se  ven  afectadas  en  esencia 
por  la  polftica  monetaria.  .  .  Con  este  argumento,  la  Reserva  Federal  no  ejerce  influencia  perma¬ 
nente  alguna  sobre  la  tasa  real  de  interes.47 

Si  esta  doctrina  es  valida,  entonces  se  debe  esperar  que  los  coeficientes  o,  de  los  rezagos 
distribuidos,  al  igual  que  su  suma,  sean  estadfsticamente  no  diferentes  de  cero.  Para  averiguar  si 
sucede  asf,  los  autores  estimaron  (1  7.1 2.1 )  para  dos  periodos  diferentes,  febrero  de  1 951  a  sep- 
tiembre  de  1979  y  octubre  de  1979  a  noviembre  de  1982,  el  ultimo  para  considerar  el  cambio 
en  la  polftica  monetaria  del  Banco  de  la  Reserva  Federal,  la  cual  desde  octubre  de  1979  presta 
mayor  atencion  a  la  tasa  de  crecimiento  de  la  oferta  monetaria  que  a  la  tasa  de  interes,  cuando 
esta  ultima  fue  la  polftica  en  el  periodo  anterior.  Los  resultados  de  su  regresion  se  presentan  en 
la  tabla  1  7.6.  Estos  resultados  parecen  apoyar  la  "doctrina  de  la  neutralidad  del  dinero",  pues 
durante  febrero  de  1951  a  septiembre  de  1979  el  crecimiento  monetario  del  periodo  en  curso, 
al  igual  que  el  rezagado,  no  tuvieron  un  efecto  estadfsticamente  significativo  sobre  la  medida  de 
la  tasa  de  interes  real.  Del  mismo  modo,  durante  el  ultimo  periodo,  la  doctrina  de  la  neutralidad 
parece  mantenerse,  pues  J2  no  es  estadfsticamente  diferente  de  cero;  solo  el  coeficiente  Oi  es 
significativo,  pero  tiene  el  signo  equivocado.  (<;Por  que?) 


46  "The  Fed  and  the  Real  Rate  of  Interest",  Review,  Federal  Reserve  Bank  of  St.  Louis,  diciembre  de  1 982,  pp. 
8-18. 

47  Ibid.,  p.  1 5. 
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TAB  LA  17.6  Influencia  del  crecimiento  mensual  de  Ml  sobre  una  medida  de  la  tasa  de  interes 
real  de  los  bonos  Aaa:  febrero  de  1951  a  noviembre  de  1982 


n 

r=constante+  , 

/— o 


Febrero  de  1951  a 
septiembre  de  1979 

Octubre  de  1979  a 
noviembre  de  1982 

Coeficiente 

\t\* 

Coeficiente 

|t|* 

Constante 

1 .4885^ 

2.068 

1.0360 

0.801 

oo 

-0.00088 

0.388 

0.00840 

1.014 

Oi 

0.00171 

0.510 

0.03960t 

3.419 

02 

0.00170 

0.423 

0.03112 

2.003 

03 

0.00233 

0.542 

0.02719 

1.502 

04 

-0.00249 

0.553 

0.00901 

0.423 

o5 

-0.00160 

0.348 

0.01940 

0.863 

o6 

0.00292 

0.631 

0.0241 1 

1.056 

O7 

0.00253 

0.556 

0.01446 

0.666 

Og 

0.00000 

0.001 

-0.00036 

0.019 

09 

0.00074 

0.181 

-0.00499 

0.301 

OlO 

0.00016 

0.045 

-0.01126 

0.888 

Oil 

0.00025 

0.107 

-0.00178 

0.211 

X> 

0.00737 

0.221 

0.1549 

0.926 

R2 

0.9826 

0.8662 

D-W 

2.07^ 

2.04 

RH01 

1.27t 

24.536 

1.40f 

9.838 

RH02 

-0.28 

5.410 

-0.48f 

3.373 

NOB 

344. 

38. 

SER  (  =  SCR) 

0.1548 

0.3899 

*\t\  =  valor  absoluto  de  t. 

t  Significativamente  diferente  de  cero  en  el  nivel  de  0.05. 

Fuente:  G.  J.  Santoni  y  Courtenay  C.  Stone,  “The  Fed  and  the  Real  Rate  of  Interest”,  Review,  Federal  Reserve  Bank  of  St.  Louis,  di- 
ciembre  de  1982,  p.  16. 


EJEMPLO  17.10 

Suponga  que  el  consumo  C  esta  relacionado  linealmente  con  el  ingreso  permanente  X*: 

El  consumo  agre- 
gado  de  corto  y 
largo  plazos  de  Sri 
Lanka,  1967-1993 

Ct  =  +PiX?  +  ut  (17.12.2) 

Como  X*  no  es  observable  directamente,  necesitamos  especificar  el  mecanismo  que  genera  el 
ingreso  permanente.  Suponga  que  adoptamos  la  hipotesis  de  expectativas  adaptativas  especifi- 
cada  en  (1  7.5.2).  Con  (1  7.5.2)  y  al  simplificar,  obtenemos  la  siguiente  ecuacion  de  estimacion 
(cf.  1  7.5.5): 

Q  =  on  4-  ot2  Xt  +  o^Cf— i  +  Vt 

(17.12.3) 

donde  on  =  yf. ii 

012  =  yPi 
“3  =  (1  -  y) 
vt=  [ut-  (1  -  y)ut- 1] 

Como  sabemos,  da  la  respuesta  media  del  consumo,  por  ejemplo,  a  un 

un  dolar  en  el  ingreso  permanente,  mientras  que  012  da  la  respuesta  media  del 
incremento  de  un  dolar  en  el  ingreso  actual. 

incremento  de 

consumo  a  un 

(1 continua ) 
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A  partir  de  los  datos  anuales  de  Sri  Lanka  de  1 967  a  1 993  en  la  tabla  1  7.5  se  obtuvieron  los 
siguientes  resultados  de  la  regresion:48 

C  =  1  038.403  +  0.4043Xt+  0.5009Q_! 

ee  =  (2  501.455)  (0.0919)  (0.1213)  (17.12.4) 

t=  (0.4151)  (4.3979)  (4.1293) 

R2  =  0.991 2  c/=  1.4162  F=  1  298.466 


donde  C  =  gasto  de  consumo  privado  y  X  =  PIB,  ambos  a  precios  constantes.  Tambien  introdu- 
jimos  la  tasa  de  interes  real  en  el  modelo,  pero  no  fue  estadfsticamente  significativa. 

Los  resultados  muestran  que  la  propension  marginal  a  consumir  de  corto  plazo  (PMC)  es 
igual  a  0.4043,  lo  que  sugiere  que  un  incremento  de  una  rupia  en  el  ingreso  real  observado 
o  actual  (como  lo  mide  el  PIB)  aumentana  el  consumo  medio  en  casi  0.40  rupias.  Pero  si  se 
conserva  el  aumento  en  el  ingreso,  entonces  a  la  larga  el  PMC,  sin  el  ingreso  permanente,  serfa 
de  p2  =  yPi/y  =  0.4043/0.4991  =  0.8100,  o  de  casi  0.81  rupias.  En  otras  palabras,  cuando  los 
consumidores  tengan  tiempo  para  ajustarse  al  cambio  de  1  rupia  en  el  ingreso,  incrementaran 
su  consumo  a  final  de  cuentas  en  0.81  rupias. 

Ahora,  suponga  que  la  funcion  de  consumo  es 

C*  =  fr  +p2Xt  +  Ut  (17.12.5) 

En  esta  formulacion,  el  consumo  permanente  o  de  largo  plazo  Cf  es  una  funcion  lineal  del  in¬ 
greso  actual  u  observado.  Como  C*  no  es  observable  directamente,  es  preciso  acudir  al  modelo 
de  ajuste  parcial  (1  7.6.2).  Con  este  modelo  y  tras  un  reordenamiento  algebraico,  obtenemos 


Ct  =  Sft:  +  8/32Xt  +  (1  -  <5)Q_i  +  Sut 
=  oq  +a2Xt  +  +  vt 


(17.12.6) 


En  apariencia,  este  modelo  no  se  diferencia  del  modelo  de  expectativas  adaptativas  (17.12.3). 
Por  consiguiente,  los  resultados  de  la  regresion  en  (17.12.4)  son  por  igual  aplicables  aquf.  Sin 
embargo,  hay  una  gran  diferencia  en  la  interpretacion  de  los  dos  modelos,  para  no  mencionar 
el  problema  de  estimacion  asociado  al  modelo  autorregresivo  y  quiza  al  serialmente  correlacio- 


TABLA  17.7 

Gasto  de  consumo  pri- 

Observacion 

GACP 

PIB 

Observacion 

GACP 

PIB 

vado  y  PIB,  Sri  Lanka 

1967 

61  284 

78  221 

1981 

120  477 

152  846 

1968 

68  814 

83  326 

1982 

133  868 

164  318 

Fuente:  Vease  la  nota  48. 

1969 

76  766 

90  490 

1983 

148  004 

172  414 

1970 

73  576 

92  692 

1984 

149  735 

178  433 

1971 

73  256 

94  814 

1985 

155  200 

185  753 

1972 

67  502 

92  590 

1986 

154  165 

192  059 

1973 

78  832 

101  419 

1987 

155  445 

191  288 

1974 

80  240 

105  267 

1988 

157 199 

196  055 

1975 

84  477 

1 1 2  1 49 

1989 

158  576 

202  477 

1976 

86  038 

116  078 

1990 

169  238 

223  225 

1977 

96  275 

1 22  040 

1991 

179  001 

233  231 

1978 

101  292 

128  578 

1992 

183  687 

242  762 

1979 

1980 

1 05  448 
114  570 

136  851 

144  734 

1993 

198  273 

259  555 

Notas:  GACP  =  gasto  de  consumo  privado. 
PIB  =  producto  intemo  bruto. 


48  Los  datos  provienen  del  disco  incluido  en  la  obra  de  Chandan  Mukherjee,  Howard  White  y  Marc  Wuyts 
Econometrics  and  Data  Analysis  for  Developing  Countries,  Routledge,  Nueva  York,  1 998.  Los  datos  originales 
son  de  las  World  Tables  (tablas  mundiales),  del  Banco  Mundial. 
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nado  (1  7.1 2.3).  El  modelo  (1  7.1 2.5)  es  la  funcion  de  consumo  de  largo  plazo,  o  de  equilibrio, 
mientras  que  (1  7.1 2.6)  es  la  funcion  de  consumo  de  corto  plazo.  fti  mide  la  PMC  de  largo  pla¬ 
zo,  mientras  que  q?2  (=  8ftft)  da  la  PMC  de  corto  plazo;  la  primera  se  obtiene  de  la  segunda  al 
dividir  esta  ultima  entre  8,  el  coeficiente  de  ajuste. 

De  regreso  a  (1  7.12.4),  ahora  podemos  interpretar  a  0.4043  como  la  PMC  de  corto  plazo. 
Como  8  =  0.4991 ,  la  PMC  de  largo  plazo  es  0.81 .  Observe  que  el  coeficiente  de  ajuste  de  alrede- 
dor  de  0.50  sugiere  que  en  cualquier  periodo  dado,  los  consumidores  solo  ajustan  su  consumo 
un  medio  hacia  su  nivel  deseado,  o  de  largo  plazo. 

Este  ejemplo  permite  ver  el  punto  crucial  de  que,  en  apariencia,  los  modelos  de  expectati- 
vas  adaptativas  y  de  ajuste  parcial,  o  el  modelo  de  Koyck  para  este  caso,  son  tan  similares  que 
no  podemos  decir  cual  es  la  especificacion  correcta  solo  con  observar  la  regresion  estimada, 
como  (1  7.1 2.4).  Por  esta  razon,  es  vital  especificar  la  base  teorica  del  modelo  seleccionado  para 
el  analisis  empfrico  y  proceder  luego  apropiadamente.  Si  el  habito  o  la  inercia  caracterizan  el 
comportamiento  del  consumo,  el  modelo  de  ajuste  parcial  es  el  adecuado.  Por  otra  parte,  si 
el  comportamiento  del  consumo  mira  hacia  adelante  en  el  sentido  de  que  se  basa  en  el  ingreso 
futuro  esperado,  entonces  el  modelo  de  expectativas  adaptativas  es  el  apropiado.  Si  es  el  ultimo, 
se  tendra  que  prestar  mucha  atencion  al  problema  de  estimacion  para  obtener  estimadores  con- 
sistentes.  En  el  primer  caso,  MCO  proporciona  estimadores  consistentes  en  tanto  se  cumplan  los 
supuestos  usuales  de  MCO. 


17.13  El  metodo  de  Alinon  para  los  modelos  de  rezagos  distribuidos: 
rezagos  distribuidos  polinomiales  (RDP)  o  de  Almon49 


Si  bien  es  muy  comun  en  la  practica,  el  modelo  de  rezagos  distribuidos  de  Koyck  se  basa  en  el 
supuesto  de  que  los  coeficientes  ft  se  reducen  geometricamente  a  medida  que  aumenta  el  rezago 
(vease  la  figura  17.5).  Este  supuesto  puede  ser  muy  restrictivo  en  algunas  situaciones.  Considere, 
por  ejemplo,  la  figura  17.7. 

En  la  figura  17.7a  se  supone  que  las  ft  aumentan  al  principio  y  luego  disminuyen,  mientras  que 
en  la  figura  17.7c  se  supone  que  siguen  un  patron  ciclico.  Claro,  el  esquema  de  Koyck  de  modelos 
de  rezagos  distribuidos  no  funciona  en  estos  casos.  Sin  embargo,  despues  de  mirar  las  figuras 
17.7a)  y  c),  parece  posible  expresar  ft,  como  funcion  de  i,  la  duracion  del  rezago  (tiempo),  y 
ajustar  curvas  apropiadas  para  reflejar  la  relacion  funcional  entre  ambas,  como  indican  las  figuras 
17.7b)  y  d).  Este  metodo  es  precisamente  el  sugerido  por  Shirley  Almon.  Para  ilustrar  su  tecnica, 
consideremos  de  nuevo  el  modelo  de  rezagos  distribuidos  finito  ya  analizado,  a  saber, 

Yt  —  a  +  ftoX,  +  ft\Xt_\  +  ft2Xt_2  +  ■  ■  ■  +  ftkXt-k  +  ut  (17.1.2) 

que  se  escribe  en  forma  mas  compacta  como 

k 

Y,=a  +  J2ftixt-i+ut  (17.13.1) 

i=0 

Segun  un  teorema  en  matematicas  conocido  como  teorema  de  Weierstrass,  Almon  supone 
que  ftj  puede  aproximarse  mediante  un  polinomio  apropiado  en  i,  la  longitud  del  rezago.50  Por 
ejemplo,  si  aplica  el  esquema  de  rezagos  de  la  figura  17.7a,  escribimos 

ft,  —  ciq  +  aft  +  a2*'2  (17.13.2) 


49  Shirley  Almon,  "The  Distributed  Lag  Between  Capital  Appropriations  and  Expenditures",  Econometrica, 
vol.  33,  enero  de  1965,  pp.  178-196. 

50  En  terminos  generates,  el  teorema  plantea  que  en  un  intervalo  cerrado  finito,  cualquier  funcion  continua 
puede  aproximarse  uniformemente  mediante  un  polinomio  de  un  grado  apropiado. 
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FIGURA  17.7 

Esquema  de  Almon  para 
el  rezago  polinomial. 


A  A 


Rezago 


Rezago 


a) 


b ) 


A 


X  X 

X 


0  12  3  8 

Rezago 


c) 


A 


que  es  un  polinomio  cuadratico,  o  de  segundo  grado,  en  i  (vease  la  figura  17.76).  Sin  embargo,  si 
las  P  siguen  el  patron  de  la  figura  17.7c),  escribimos 

Pi  —  ao  +  a\i  +  d2  i2  +  a^i  3  (17.13.3) 

que  es  un  polinomio  de  tercer  grado  en  i  (vease  la  figura  1 1  .Id).  De  forma  mas  general,  podemos 
escribir 

Pi  —  ciq  a\i  u 2 i 3  -\-  •  •  ■  +  amim  (1 7.1 3.4) 

que  es  un  polinomio  de  grado  m  en  i.  Se  supone  que  m  (el  grado  del  polinomio)  es  menor  que  k 
(longitud  maxima  del  rezago). 

Para  explicar  como  funciona  el  esquema  de  Almon,  supongamos  que  las  P  siguen  el  patron  de 
la  figura  17.7a  y,  por  consiguiente,  la  aproximacion  polinomial  de  segundo  grado  es  apropiada. 
A1  sustituir  (17.13.2)  en  (17.13.1),  obtenemos 

k 

Yt  =  a  +  y  ]( ap  +  a \i  +  a2i^)Xt-i  +  ut 
;=o 

k  k  k 

=  a  +  ao  y  ]  Xf—i  +  a\  y  ^  iXt-i  +  #2  y  ]  i2Xt-i  H-  ut 

i= 0  i=0  i=0 


(17.13.5) 
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Definimos 

k 

Z0t  =  Y.X>-i 

i= 0 
k 

ZU  =  (17.13.6) 

i=  0 
k 

z2t  = 

/=o 

y  podemos  escribir  (17.13.5)  como 

7)  =  ol  +  aoZot  +  a\Z\t  +  a2Z2t  +  (1 7.1 3.7) 


En  el  esquema  de  Almon  se  hace  una  regresion  de  Y  sobre  las  variables  Z  construidas,  no 
sobre  las  variables  X  originales.  Observe  que  (17.13.7)  se  estima  mediante  el  procedimiento 
usual  de  MCO.  Las  estimaciones  de  a  y  a ,  asi  obtenidas  tendran  todas  las  propiedades  estadis- 
ticas  deseables  siempre  que  el  termino  de  perturbacion  estocastico  u  satisfaga  los  supuestos  del 
modelo  clasico  de  regresion  lineal.  A1  respecto,  la  tecnica  de  Almon  tiene  una  clara  ventaja  sobre 
el  metodo  de  Koyck  porque,  como  vimos,  el  ultimo  tiene  algunos  problemas  graves  de  estima¬ 
tion  debidos  a  la  presencia  de  la  variable  explicativa  estocastica  17_i  y  a  su  probable  correlacion 
con  el  termino  de  perturbacion. 

Una  vez  estimadas  las  a  de  (17.13.7),  se  estiman  las  ft  originales  de  (17.13.2)  [o,  mas  general- 
mente,  de  (17.13.4)]  de  la  siguiente  manera: 


A)  =  ao 

—  ao  +  a\  +  a2 
j32  —  "b  ~\~  4«2 

A  —  +  3«i  +  9a2 


(17.13.8) 


Pk  —  «o  +  ka\  +  k2a2 


Antes  de  aplicar  la  tecnica  de  Almon,  debemos  resolver  los  siguientes  problemas  practicos. 

1.  La  longitud  maxima  del  rezago  k  debe  especificarse  por  adelantado.  Aqui  quiza  se  puede 
seguir  el  consejo  de  Davidson  y  MacKinnon: 

El  mejor  enfoque  es  tal  vez  resolver  primero  la  pregunta  de  la  longitud  del  rezago,  empezando  con 
un  valor  muy  grande  de  q  [la  longitud  del  rezago]  y  luego  ver  si  el  ajuste  del  modelo  se  deteriora 
significativamente  cuando  este  se  reduce  sin  imponer  restriccion  alguna  sobre  la  forma  del  rezago 
distribuido.51 

Recuerde  que  si  hay  alguna  longitud  de  rezago  “verdadera”,  la  seleccion  de  una  cantidad  menor 
de  rezagos  generara  un  “sesgo  por  omision  de  variable  relevante”,  cuyas  consecuencias,  como 
vimos  en  el  capitulo  13,  llegan  a  ser  muy  graves.  Por  otra  parte,  la  seleccion  de  mas  rezagos  de 
los  necesarios  resultara  en  un  “sesgo  por  inclusion  de  variable  irrelevante”,  cuyas  consecuencias 
son  menos  graves;  los  coeficientes  se  estiman  consistentemente  por  MCO,  aunque  sus  varianzas 
pueden  ser  menos  eficientes. 


51  Russell  Davidson  y  James  C.  MacKinnon,  Estimation  and  Inference  in  Econometrics,  Oxford  University  Press, 
Nueva  York,  1993,  pp.  675-676. 
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Se  puede  elegir  la  longitud  adecuada  del  rezago  con  el  criterio  de  information  deAkaike  o  el 
de  Schwarz,  analizados  en  el  capitulo  13.  Con  dichos  criterios  tambien  se  analiza  el  grado  ade- 
cuado  del  polinomio,  ademas  de  lo  expuesto  en  el  punto  2. 

2.  Una  vez  especificado  k,  debemos  puntualizar  tambien  el  grado  in  del  polinomio.  Por  lo  ge¬ 
neral,  el  grado  del  polinomio  debe  ser  por  lo  menos  uno  mas  que  el  numero  de  puntos  de  inflexion 
en  la  curva  que  relaciona  /l,  con  i.  Asi,  en  la  figura  1 1  .la  solo  hay  un  punto  de  inflexion:  por  tanto, 
un  polinomio  de  segundo  grado  sera  una  buena  aproximacion.  En  la  figura  17.7c  hay  dos  puntos 
de  inflexion:  por  tanto,  un  polinomio  de  tercer  grado  sera  una  buena  aproximacion.  A  priori,  sin 
embargo,  no  podemos  conocer  el  numero  de  puntos  de  inflexion  y,  por  consiguiente,  la  seleccion 
de  m  es  muy  subjetiva.  Sin  embargo,  la  teoria  puede  sugerir  una  forma  particular  en  algunos 
casos.  En  la  practica,  se  espera  que  un  polinomio  de  relativamente  pocos  grados  (por  ejemplo, 
m  —  2  o  3)  de  buenos  resultados.  Tras  seleccionar  un  valor  particular  de  m,  si  deseamos  averiguar 
si  un  polinomio  de  mayor  grado  dara  un  mejor  ajuste,  procedemos  de  la  siguiente  manera. 

Suponga  que  debemos  decidir  entre  polinomios  de  segundo  y  tercer  grados.  Para  el  polino¬ 
mio  de  segundo  grado,  la  ecuacion  de  estimacion  es  como  (17.13.7).  Para  el  polinomio  de  tercer 
grado,  la  ecuacion  correspondiente  es 


Yt  —  a  +  ao  Zot  +  o.\Z\t  +  02-^2 1  +  <2^3,  +  ut  (1 7.1 3.9) 

donde  Z3,  =  Y?i= 0  i320-(-.  Despues  de  efectuar  la  regresion  (17.13.9),  si  encontramos  que  <22  es 
estadisticamente  significativo  pero  que  <73  no  lo  es,  podemos  suponer  que  el  polinomio  de  se¬ 
gundo  grado  proporciona  una  aproximacion  razonablemente  buena. 

Por  otro  lado,  como  proponen  Davidson  y  MacKinnon:  “Despues  de  determinar  q  [la  longitud 
del  rezago],  se  puede  tratar  de  determinar  d  [el  grado  del  polinomio]  empezando  de  nuevo  con  un 
valor  grande  para  luego  reducirlo.”52 

Sin  embargo,  debemos  tener  cuidado  con  el  problema  de  la  multicolinealidad,  que  tal  vez 
surgira  debido  a  la  forma  de  construir  las  Z  a  partir  de  las  A,  como  se  muestra  en  (17.13.6)  [vease 
tambien  (17.13.10)].  Como  vimos  en  el  capitulo  10,  en  casos  de  multicolinealidad  grave,  a 3 
puede  resultar  estadisticamente  no  significativo  no  porque  el  verdadero  a 3  sea  cero,  sino  tan  solo 
porque  la  muestra  disponible  no  permite  evaluar  el  impacto  separado  de  Z3  sobre  Y.  Por  consi¬ 
guiente,  en  el  ejemplo,  antes  de  aceptar  la  conclusion  de  que  el  polinomio  de  tercer  grado  no  es 
la  seleccion  correcta,  debemos  asegurarnos  de  que  el  problema  de  multicolinealidad  no  sea  lo 
bastante  grave,  para  lo  cual  aplicamos  las  tecnicas  analizadas  en  el  capitulo  10. 

3.  Una  vez  especificadas  my  k,  las  Z  se  construyen  facilmente.  Por  ejemplo,  si  m  —  2  y  k  — 
5,  las  Z  son 

5 

Zot  =  J2  Xt-i  =  {X,  +  20-1  +  Xf—2  +  20-3  +  20-4  +  20-5) 

1=0 

5 

Z\t  =  =  (X‘-'  +  2X'-2  +  320-3  +  420-4  +  52",_ 5)  (17.13.10) 

i= 0 

5 

Z2,  =  J]/220_,'  =  (20_i  +  4A,_2  +  920_3  +  162",  _4  +  25X,_5) 

i= 0 

Observe  que  las  Z  son  combinaciones  lineales  de  las  X  originales.  Observe  tambien  la  razon 
por  la  cual  es  probable  que  las  Z  presenten  multicolinealidad. 


52 


Ibid.,  pp.  675-676. 


Capftulo  1  7  Modelos  econometricos  dinamicos:  modelos  autorregresivos y  de  rezagos  distribiddos  649 


Antes  de  proceder  a  un  ejemplo  numerico,  advierta  las  ventajas  del  metodo  de  Almon:  en 
primer  lugar,  proporciona  un  metodo  flexible  de  incorporar  una  diversidad  de  estructuras  del 
rezago  (vease  el  ejercicio  17.17).  La  tecnica  de  Koyck,  por  otra  parte,  es  muy  rigida  en  el  sentido 
de  que  supone  que  las  p  se  reducen  geometricamente.  En  segundo  lugar,  a  diferencia  de  la  tec¬ 
nica  de  Koyck,  en  el  metodo  de  Almon  no  hay  que  preocuparnos  por  la  presencia  de  la  variable 
dependiente  rezagada  como  variable  explicativa  en  el  modelo  y  los  problemas  de  estimation  que 
esto  crea.  Por  ultimo,  si  se  puede  ajustar  un  polinomio  de  un  grado  lo  bastante  bajo,  el  numero  de 
coeficientes  por  estimar  (las  a)  es  mucho  menor  que  el  numero  original  de  coeficientes  (las  P). 

Pero  destaquemos  de  nuevo  los  problemas  de  la  tecnica  de  Almon.  En  primer  lugar,  el  grado 
del  polinomio,  al  igual  que  el  valor  maximo  del  rezago,  es  en  gran  medida  una  decision  subjetiva. 
En  segundo  lugar,  por  las  razones  ya  mencionadas,  es  probable  que  las  variables  Z  presenten 
multicolinealidad.  Por  consiguiente,  en  modelos  como  (17.13.9)  es  probable  que  las  a  estima- 
das  muestren  errores  estandar  grandes  (relativos  a  los  valores  de  estos  coeficientes),  con  lo  cual 
se  obtienen  uno  o  mas  de  tales  coeficientes  estadisticamente  no  significativos  con  base  en  la 
prueba  t  convencional.  Pero  esto  no  necesariamente  significa  que  uno  o  mas  de  los  coeficientes 
P  originales  tambien  sean  estadisticamente  no  significativos.  (La  prueba  de  esta  afirmacion  es  un 
poco  complicada,  pero  se  sugiere  en  el  ejercicio  17.18.)  Como  resultado,  el  problema  de  multi¬ 
colinealidad  puede  no  ser  tan  grave  como  se  podria  pensar.  Ademas,  como  sabemos,  en  casos  de 
multicolinealidad,  aunque  no  sea  posible  estimar  un  coeficiente  individual  en  forma  precisa,  si 
lo  es  estimar  una  combination  lineal  (la  funcion  estimable)  de  tales  coeficientes  en  forma  mas 
exacta. 


EJEMPLO  17.11 

Ilustracion  del 
modelo  de  rezagos 
distribiddos  de 
Almon 


Para  mostrar  la  tecnica  de  Almon,  en  la  tabla  1  7.8  se  presenta  informacion  sobre  inventarios  Y 
y  ventas  X  en  Estados  Unidos  de  1 954  a  1 999. 

Para  fines  ilustrativos,  suponga  que  los  inventarios  dependen  de  las  ventas  en  el  ano  en  curso 
y  los  tres  anos  anteriores,  de  la  siguiente  manera: 

Yt  =  a  +  PoXt  +  faXt--i+P2Xt-2  +  P3Xt-3  +  Ut  (17.13.11) 

Ademas,  suponga  que  p-,  puede  aproximarse  mediante  un  polinomio  de  segundo  grado,  como 
en  (1  7.1  3.2).  Entonces,  segun  (1  7.1  3.7),  podemos  escribir 


Yt  =  a  +  a0Z0t  +  Qi  Zif  +  a2Z2t  +  ut 


(17.13.12) 


donde 

3 

Zot  =  J2  X‘~i  =  +  Xt-i  +  Xt-2  +  Xf-3) 

/= 0 
3 

Zn  =  YL,Xt~i  =  (Xt_1  +2Xt-2  +  3Xt-3)  (17.13.13) 

/=  0 
3 

Z2t  =  J2i2Xt-i  =(xt— 1  +4Xt_2  +  9Xt_3) 

/=o 

Las  variables  Z  as!  construidas  se  muestran  en  la  tabla  1  7.8.  Con  la  informacion  sobre  Y y  las  Z, 
obtenemos  la  siguiente  regresion: 


=25  845.06  +  1.1149Z0f 

ee  =  (6  596.998)  (0.5381) 

t=  (3.9177)  (2.0718) 

R2  =  0.9755 


-  0.371 3Z 

(1.3743) 
(-0.2702) 
d=  0.1 643 


it  —  0.0600Z2t 

(0.4549) 
(-0.1319) 
F=  51  7.7656 


(17.13.14) 


Nota:  Como  utilizamos  un  rezago  de  tres  anos,  el  numero  total  de  observaciones  se  redujo  de 
46  a  43. 


( continua ) 
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EJEMPLO  17.11 

( continuation ) 


TAB  LA  17.8  Inventarios  Y  y  ventas  X,  sector  manufacturero  de  Estados  Unidos,  y 
Z  eonstruidas 


Observation 

Inventario 

Ventas 

Zo 

Zi 

z2 

1954 

41  612 

23  355 

NA 

NA 

NA 

1955 

45  069 

26  480 

NA 

NA 

NA 

1956 

50  642 

27  740 

NA 

NA 

NA 

1957 

51  871 

28  7 36 

106  311 

150  765 

343  855 

1958 

50  203 

27  248 

1 1 0  204 

163  656 

378  016 

1959 

52  913 

30  286 

114  010 

167  940 

391  852 

1960 

53  786 

30  878 

117 148 

1  70  990 

397  902 

1961 

54  871 

30  922 

119  334 

173 194 

397  254 

1962 

58  172 

33  358 

1 25  444 

183  536 

427  008 

1963 

60  029 

35  058 

130  216 

187  836 

434  948 

1964 

63  410 

37  331 

1  36  669 

194  540 

446  788 

1965 

68  207 

40  995 

1 46  742 

207  521 

477  785 

1966 

77  986 

44  870 

158  254 

220  831 

505  841 

1967 

84  646 

46  486 

169  682 

238  853 

544  829 

1968 

90  560 

50  229 

182  580 

259  211 

594  921 

1969 

98  145 

53  501 

195  086 

277  811 

640  003 

1970 

101  599 

52  805 

203  021 

293  417 

672  791 

1971 

102  567 

55  906 

212  441 

310  494 

718  870 

1972 

108 121 

63  027 

225  239 

322  019 

748  635 

1973 

124  499 

72  931 

244  669 

333  254 

761  896 

1974 

157  625 

84  790 

276  654 

366  703 

828 193 

1975 

159  708 

86  589 

307  337 

419  733 

943  757 

1976 

1  74  636 

98  797 

343  107 

474  962 

1  082  128 

1977 

188  378 

113  201 

383  377 

526  345 

1  208  263 

1978 

211  691 

126  905 

425  492 

570  562 

1  287  690 

1979 

242 157 

143  936 

482  839 

649  698 

1  468  882 

1980 

265  215 

154  391 

538  433 

737  349 

1  670  365 

1981 

283  413 

168 129 

593  361 

822  978 

1  872  280 

1982 

311  852 

163  351 

629  807 

908  719 

2  081  117 

1983 

312  379 

1  72  547 

658  418 

962  782 

2  225  386 

1984 

339  516 

190  682 

694  709 

1  003  636 

2  339  112 

1985 

334  749 

194  538 

721  118 

1  025  829 

2  351  029 

1986 

322  654 

194  657 

752  424 

1  093  543 

2  510  189 

1987 

338  109 

206  326 

786  203 

1  155  779 

2  688  947 

1988 

369  374 

224  619 

820  140 

1  179  254 

2  735  796 

1989 

391  212 

236  698 

862  300 

1  221  242 

2  801  836 

1990 

405  073 

242  686 

910  329 

1  304  914 

2  992  108 

1991 

390  905 

239  847 

943  850 

1  389  939 

3  211  049 

1992 

382  510 

250  394 

969  625 

1  435  313 

3  340  873 

1993 

384  039 

260  635 

993  562 

1  458 146 

3  393  956 

1994 

404  877 

279  002 

1  029  878 

1  480  964 

3  420  834 

1995 

430  985 

299  555 

1  089  586 

1  551  454 

3  575  088 

1996 

436  729 

309  622 

1  148  814 

1  639  464 

3  761  278 

1997 

456  133 

327  452 

1  215  631 

1  745  738 

4  018  860 

1998 

466  798 

337  687 

1  274  316 

1  845  361 

4  261  935 

1999 

470  377 

354  961 

1  329  722 

1  921  457 

4  434  093 

Nota:  Y  y  X  estan  en  millones  de  dolares,  ajustados  por  estacionalidad. 

Fuente:  Economic  Report  of  the  President,  2001,  tabla  B-57,  p.  340.  Las  Z  son  como  las  de  (17.13.13). 
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EJEMPLO  17.11 

( continuation ) 


Cabe  anotar  un  breve  comentario  sobre  los  resultados  anteriores.  De  las  tres  variables  Z,  solo 
Zo  es  estadlsticamente  significativa  en  un  nivel  individual,  en  el  nivel  de  5%;  pero  las  otras  no 
lo  son,  a  pesar  de  que  el  valor  Fes  tan  alto  que  se  puede  rechazar  la  hipotesis  nula  de  que,  de 
manera  colectiva,  las  Z  no  tienen  efecto  alguno  sobre  Y.  Como  se  puede  sospechar,  lo  anterior 
bien  puede  deberse  a  la  multicolinealidad.  Asimismo,  observe  que  el  valor  d  calculado  es  muy 
bajo,  lo  cual  no  necesariamente  significa  que  los  residuos  presenten  autocorrelacion.  Lo  mas 
probable  que  el  bajo  valor  de  d  sugiera  que  el  modelo  este  mal  especificado.  Comentaremos 
esto  mas  adelante. 

De  los  coeficientes  a  estimados  dados  en  la  ecuacion  (1  7.1  3.1  3),  facilmente  se  estiman  los 
coeficientes  originales  p  de  la  relacion  (1  7.1  3.8).  En  este  ejemplo,  los  resultados  son  los  siguien- 
tes: 


^0  =  6o  =  1.1 149 

/§!=  (d0  +  di  +  o2)  =  0.6836  17  13  15, 

Pi  =  (do  +  2di  +  4d2)  =  0.1  321 
/§3  =  (do  +  3di  +  9d2)  =  -0.5394 

Asi,  el  modelo  de  rezagos  distribuidos  estimado  correspondiente  a  (1  7.1  3.1 1)  es 

Yt  =  25  845.0  +  1.11 50X0  +  0.6836X,_!  +  0.1  321  Xt_2  -  0.5394Xf_3 

ee=  (6  596.99)  (0.5381)  (0.4672)  (0.4656)  (0.5656)  (17.13.16) 

t  =  (3.9177)  (2.0718)  (1.4630)  (0.2837)  (-0.9537) 

Geometricamente,  las  /?,  estimadas  se  muestran  en  la  figura  1  7.8. 


FIGURA  17.8 

Estructura  de  rezagos 
del  ejemplo  ilustrativo. 


Rezago 


Este  ejemplo  numerico  sirve  para  senalar  otras  caracteristicas  del  procedimiento  de  Almon: 

1 .  Los  errores  estandar  de  los  coeficientes  a  se  obtienen  directamente  de  la  regresion  por  MCO 
(17.13.14),  pero  los  errores  estandar  de  algunos  coeficientes  ji,  que  son  el  objetivo  principal, 
no  pueden  obtenerse  asi.  Pero  se  pueden  calcular  con  facilidad  de  los  errores  estandar  de  los 
coeficientes  a  estimados  mediante  una  formula  de  estadistica  bien  conocida,  dada  en  el  ejer- 
cicio  17.18.  Desde  luego,  no  hay  necesidad  de  hacer  esto  de  forma  manual,  pues  la  mayoria 
del  software  estadistico  lo  realiza  de  manera  rutinaria.  Los  errores  estandar  de  (17.13.15)  se 
obtuvieron  mediante  E  Views  6. 
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2.  Las  ft  obtenidas  en  ( 17. 13. 16)  se  denominan  estimaciones  no  restringidas,  pues  no  se  colocan 
restricciones  a  priori  sobre  ellas.  Algunas  ocasiones,  sin  embargo,  podemos  desear  imponer 
las  llamadas  restricciones  de  punto  final  sobre  las  ft  segun  el  supuesto  de  que  fto  y  ftk  (el 
coeficiente  del  periodo  actual  y  el  del  A'-esimo  rezago)  son  cero.  Por  razones  psicologicas, 
institucionales  o  tecnologicas,  el  valor  de  la  variable  explicativa  en  el  periodo  actual  puede 
no  tener  impacto  alguno  sobre  el  valor  actual  de  la  variable  dependiente,  lo  cual  justifica  el 
valor  de  cero  para  fto.  Por  las  mismas  razones,  el  coeficiente  del  /c-esimo  rezago  puede  no  tener 
impacto  alguno  sobre  la  variable  dependiente,  lo  cual  apoya  el  supuesto  de  que  ftk  es  cero.  En 
el  ejemplo  del  inventario  (ejemplo  17.11),  el  coeficiente  de  tuvo  un  signo  negativo,  lo 
cual  quiza  no  tenga  sentido  economico.  Por  tanto,  tal  vez  deseemos  restringir  ese  coeficiente  a 
cero.53  Desde  luego,  no  se  tienen  que  restringir  ambos  extremos;  podemos  imponer  limitantes 
solo  al  primer  coeficiente  (lo  cual  se  conoce  como  restriccion  en  el  extremo  proximo)  o  al 
ultimo  coeficiente  (restriccion  en  el  extremo  lejano).  Para  el  ejemplo  del  inventario,  esto  se 
ilustra  en  el  ejercicio  17.28.  A  veces,  las  ft  estan  estimadas  con  la  restriccion  de  que  su  suma 
sea  igual  a  la  unidad.  Pero  no  se  deben  imponer  restricciones  de  manera  negligente,  pues  tam- 
bien  afectan  los  valores  de  los  demas  coeficientes  rezagados  (sin  restricciones). 

3.  En  vista  de  que  la  election  del  numero  de  coeficientes  rezagados  y  el  grado  del  polinomio  se 
dejan  al  criterio  del  que  elabora  el  modelo,  resulta  inevitable  cierto  grado  de  ensayo  y  error, 
ademas  de  la  carga  que  implica  la  busqueda  exhaustiva  de  datos.  En  esta  situation  es  cuan- 
do  resultan  utiles  los  criterios  de  information  de  Akaike  y  Schwarz,  analizados  en  el  capi- 
tulo  13. 

4.  Como  estimamos  (17.13.16)  mediante  tres  rezagos  y  el  polinomio  de  segundo  grado,  es  un 
modelo  de  minimos  cuadrados  restringidos.  Suponga  que  decidimos  usar  los  tres  rezagos  pero 
sin  el  metodo  polinomial  de  Almon;  es  decir,  calculamos  (17.13.11)  mediante  MCO.  (;Quc 
sucede  entonces?  Primero  veamos  los  resultados: 

7,  =26  008.60  +  0.9771X,  +  1.0139X(_!  -  0.2022  X, _2  -  0.3935X,_3 

ee=  (6  691.12)  (0.6820)  (1.0920)  (1.1021)  (0.7186) 

t=  (3.8870)  (1.4327)  (0.9284)  (-0.1835)  (-0.5476) 

tf2  =  0.9755  d  =  0.1571  F=  379.51  (17.13.17) 

Si  compara  estos  resultados  con  los  de  (17.13.16),  vera  que  la  R2  general  es  practicamente  la 
misma,  aunque  el  patron  de  rezago  en  (17.13.17)  muestra  una  forma  mas  corvada  que  la  de 
(17.13.16).  Se  deja  al  lector  que  verifique  el  valor  de  R2  de  (17.13.16). 

Como  ilustra  este  ejemplo,  se  debe  tener  cuidado  con  la  tecnica  de  rezagos  distribuidos  de 
Almon,  pues  los  resultados  pueden  llegar  a  ser  sensibles  a  la  hora  de  elegir  el  grado  del  polinomio 
y/o  el  numero  de  coeficientes  rezagados. 


17.14  Causalidad  en  econoima:  prueba  de  causalidad  de  Granger 


54 


Antes,  en  la  seccion  1 .4,  mencionamos  que,  aunque  el  analisis  de  regresion  trata  sobre  la  depen¬ 
dence  de  una  variable  sobre  otras  variables,  esto  no  necesariamente  implica  causalidad.  En  otras 
palabras,  la  existencia  de  una  relacion  entre  las  variables  no  prueba  causalidad  ni  la  direccion  de 


53  Para  una  aplicacion  concreta,  vease  D.B.  Batten  y  Daniel  Thornton,  "Polynomial  Distributed  Lags  and  the 
Estimation  of  the  St.  Louis  Equation",  Review,  Federal  Reserve  Bank  of  St.  Louis,  abril  de  1 983,  pp.  1  3-25. 

54  Existe  otra  prueba  de  causalidad  que  a  veces  se  utiliza,  la  llamada  prueba  de  causalidad  de  Sims.  La 
estudiaremos  mediante  un  ejercicio. 
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la  influencia.  Pero  en  regresiones  con  datos  de  series  de  tiempo,  la  situacion  puede  ser  un  cuanto 
distinta  porque,  como  sostiene  un  autor: 

...  el  tiempo  no  corre  hacia  atras.  Es  decir,  si  un  acontecimiento  A  sucede  antes  de  un  suceso  B,  es 
posible  que  A  cause  B.  Sin  embargo,  no  es posible  que  B  provoque  A.  En  otras  palabras,  los  aconte- 
cimientos  pasados  pueden  propiciar  sucesos  que  ocurren  en  la  actualidad.  Lo  cual  no  sucede  con  los 
sucesos  futures.55  (Cursivas  nuestras.) 

Esta  es  la  idea  general  de  la  llamada  prueba  de  causalidad  de  Granger.56  Pero  debemos  notar  con 
toda  claridad  que  el  asunto  de  la  causalidad  es  en  gran  medida  filosofico,  con  toda  la  polemica 
que  esto  conlleva.  En  un  extremo  estan  quienes  opinan  que  “todo  es  causa  de  todo”,  y  en  el  otro, 
quien  niega  la  existencia  de  cualquier  clase  de  causalidad.57  El  econometrista  Edward  Learner 
prefiere  el  termino  precedencia  en  vez  de  causalidad.  Francis  Diebold  se  inclina  mas  por  el  ter- 
mino  causalidad  predictiva: 

...  el  enunciado  “yt  causa  yf  es  solo  una  forma  abreviada  del  enunciado  mas  preciso  aunque  mas 
extenso  de  que  “>>,■  contiene  informacion  util  para  predecir^-  (en  el  sentido  de  los  minimos  cuadrados 
lineales),  ademas  de  las  historias  pasadas  de  las  demas  variables  del  sistema”.  Para  ahorrar  espacio, 
solo  decimos  quey,  causa  y,-.58 

Prueba  de  Granger 

Para  explicar  la  prueba  de  Granger  consideraremos  una  pregunta  frecuente  en  macroeconomia: 
,'el  PIB  “causa”  la  oferta  de  dinero  M  (PIB  ->  M),  o  la  oferta  de  dinero  M  causa  el  P1B  (M  -»■ 
PIB)?  (La  flecha  senate  la  direccion  de  la  causalidad.)  La  prueba  de  causalidad  de  Granger  su- 
pone  que  la  informacion  relevante  para  la  prediccion  de  las  variables  respectivas,  PIB  y  M,  esta 
contenida  unicamente  en  la  informacion  de  series  de  tiempo  sobre  estas  variables.  La  prueba 
implica  la  estimacion  de  las  siguientes  regresiones: 


PIB,  =  £  ( uMt—i  +  'y  '  +  u\t  (1 7.14.1) 

i=l  7=1 

n  n 

Mt  =  hM. ,-i  +  J2  SjVmt-j  +  U2t  (1 7.14.2) 

<=1  7  =  1 

donde  se  supone  que  las  perturbaciones  ii\,  y  112,  no  estan  correlacionadas.  A  proposito,  observe 
que  en  vista  de  que  hay  dos  variables,  tratamos  con  una  causalidad  bilateral.  En  los  capitulos 
sobre  econometria  de  series  de  tiempo,  la  generalizaremos  a  la  causalidad  multivariada  mediante 
la  tecnica  de  autorregresion  vectorial  (VAR). 

La  ecuacion  (17.14.1)  postula  que  el  PIB  actual  se  relaciona  con  los  valores  pasados  del 
PIB  mismo,  al  igual  que  con  los  de  M,  y  (17.14.2)  postula  un  comportamiento  similar  para  M,. 


5S  Gary  Koop,  Analysis  of  Economic  Data,  John  Wiley  &  Sons,  Nueva  York,  2000,  p.  1 75. 

56C.W.J.  Granger,  "Investigating  Causal  Relations  by  Econometric  Models  and  Cross-Spectral  Methods", 
Econometrica,  julio  de  1969,  pp.  424-438.  Aunque  se  conoce  mas  como  prueba  Granger  de  causalidad, 
resulta  apropiado  llamarla  prueba  de  causalidad  de  Wiener-Granger,  en  vista  de  que  antes  la  propuso 
Wiener.  Vease  N.  Wiener,  "The  Theory  of  Prediction",  en  E.F.  Beckenback  (ed.),  Modern  Mathematics  for 
Engineers,  McGraw-Hill,  Nueva  York,  1956,  pp.  165-190. 

57  Hay  un  excelente  analisis  de  este  tema  en  Arnold  Zellner,  "Causality  and  Econometrics",  Carnegie-Roches- 
ter  Conference  Series,  1 0,  K.  Brunner  y  A.H.  Meltzer  (eds.),  North  Holland,  Amsterdam,  1 979,  pp.  9-50. 

58  Francis  X.  Diebold,  Elements  of  Forecasting,  South  Western,  2a.  ed.,  2001,  p.  254. 
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Observe  que  estas  regresiones  se  realizan  en  forma  de  crecimientos,  PIB  y  M,  donde  un  punto 
sobre  una  variable  indica  su  tasa  de  crecimiento.  Ahora  distinguimos  cuatro  casos: 

1.  La  c ausalidad  unidirectional  de  M  hacia  PIB  es  la  indicada  si  los  coeficientes  estimados 
sobre  laMrezagada  en  (17.14.1)  son  estadisticamente  diferentes  de  cero  considerados  como 
grupo  y  el  conjunto  de  coeficientes  estimados  sobre  el  PIB  rezagado  en  (17.14.2)  no  es  esta¬ 
disticamente  diferente  de  cero. 

2.  A1  contrario,  hay  causalidad  unidirectional  de  PIB  hacia  M  si  el  conjunto  de  coeficientes  de 
M  rezagada  en  (17.14.1)  no  es  estadisticamente  diferente  de  cero  y  el  conjunto  de  coeficientes 
del  PIB  rezagado  en  (17.14.2)  es  estadisticamente  diferente  de  cero. 

3.  Se  sugiere  realiment acion,  o  causalidad  bilateral,  cuando  los  conjuntos  de  coeficientes  de  M 
y  de  PIB  son  estadisticamente  significativos,  diferentes  de  cero,  en  ambas  regresiones. 

4.  Por  ultimo,  se  sugiere  independencia  cuando  los  conjuntos  de  coeficientes  de  My  de  PIB  no 
son  estadisticamente  significativos  en  ambas  regresiones. 

De  modo  mas  general,  como  el  futuro  no  puede  predecir  el  pasado,  si  la  variable  X  (a  la  ma- 
nera  de  Granger)  causa  la  variable  Y,  los  cambios  en  X  deben  preceder  a  los  cambios  en  Y.  Por 
consiguiente,  en  una  regresion  de  Y  sobre  otras  variables  (con  sus  propios  valores  pasados),  si 
incluimos  valores  pasados  o  rezagados  de  Xy  esto  mejora  significativamente  la  prediccion  de  Y, 
podemos  decir  que  X  (a  la  manera  de  Granger)  causa  Y.  Aplica  una  definicion  similar  si  Y  (a  la 
manera  de  Granger)  causa  X. 

Los  pasos  comprendidos  en  la  prueba  de  causalidad  de  Granger  son  los  siguientes.  Ilustramos 
estos  pasos  con  el  ejemplo  PIB-dinero  de  la  ecuacion  (17.14.1). 

1 .  Haga  la  regresion  del  PIB  actual  sobre  todos  los  terminos  rezagados  del  PIB  y  otras  variables, 
en  su  caso,  pero  no  incluya  las  variables  M  rezagadas  en  esta  regresion.  De  acuerdo  con  el 
capitulo  8,  esta  es  la  regresion  restringida.  A  partir  de  esta  regresion,  obtenga  la  suma  de  cua- 
drados  residuales  restringida,  SCR/;. 

2.  Ahora  efectue  la  regresion  con  los  terminos  rezagados  M.  En  el  lenguaje  del  capitulo  8,  esta  es 
la  regresion  no  restringida.  A  partir  de  esta  regresion,  obtenga  la  suma  de  cuadrados  residuales 
no  restringida,  SCRnr. 

3.  La  hipotesis  nula  es  Hq\  a,  —  0,  i  —  1,  2,  ...,«,  es  decir,  los  terminos  rezagados  de  M  no 
pertenecen  a  la  regresion. 

4.  Para  probar  esta  hipotesis,  aplicamos  la  prueba  F  dada  por  (8.7.9),  a  saber. 


(SCR;;  -  SCRNr)/w 
SCRnr/(«  -  k) 


(8.7.9) 


que  sigue  la  distribucion  F  con  m  y  (n  —  k)  gl.  En  el  presente  caso,  m  es  igual  al  numero  de 
terminos  rezagados  de  M,  y  k  es  el  numero  de  parametros  estimados  en  la  regresion  no  restrin¬ 
gida. 

5.  Si  el  valor  F  calculado  excede  al  valor  F  critico  en  el  nivel  seleccionado  de  significancia, 
rechazamos  la  hipotesis  nula,  en  cuyo  caso  los  terminos  rezagados  de  M  pertenecen  a  la  regre¬ 
sion.  Esta  es  otra  forma  de  decir  que  M  causa  al  PIB. 

6.  Se  repiten  los  pasos  1  a  5  para  probar  el  modelo  (17.14.2),  es  decir,  para  definir  si  el  PIB  causa 
M. 


Antes  de  ilustrar  la  prueba  de  causalidad  de  Granger,  hay  varios  puntos  que  deben  tomarse  en 
cuenta: 


1 .  Se  supone  que  las  dos  variables,  PIB  y  M,  son  estacionarias .  Ya  estudiamos  el  concepto  de 
estacionariedad  en  terminos  intuitivos  y  lo  analizaremos  de  manera  mas  formal  en  el  capitulo 
21.  A  veces,  al  tomar  las  primeras  diferencias  de  las  variables,  las  convierte  en  estacionarias, 
si  es  que  aun  no  son  estacionarias  en  la  forma  de  nivel. 


Capitulo  1  7  Modelos  econometricos  dinamicos :  modelos  autorregresivos y  de  rezagos  distribuidos  655 


2.  El  numero  de  terminos  rezagados  por  introducir  en  las  pruebas  de  causalidad  es  una  cuestion 
practica  importante.  Como  en  el  caso  de  los  modelos  de  rezagos  distribuidos,  quiza  tengamos 
que  elegir  mediante  el  criterio  de  informacion  Akaike  o  Schwarz.  Pero  debe  anadirse  que  la 
direction  de  la  causalidad  tal  vez  dependa  de  manera  critica  del  numero  de  terminos  rezaga¬ 
dos  incluidos. 

3.  Supusimos  que  los  terminos  de  error  en  la  prueba  de  causalidad  no  estan  correlacionados. 
De  no  ser  asi,  quiza  deba  llevarse  a  cabo  la  transformacion  adecuada,  como  analizamos  en  el 
capitulo  12.59 

4.  Como  nos  interesa  probar  la  causalidad,  no  se  requiere  presentar  los  coeficientes  estimados  de 
los  modelos  (17.14.1)  y  (17.14.2)  en  forma  explicita  (para  ahorrar  espacio);  bastan  los  resul- 
tados  de  la  prueba  F  dados  en  (8.7.9). 

5.  Es  necesario  tener  cuidado  con  la  causalidad  “espuria”.  En  el  ejemplo  del  PIB  y  la  oferta 
de  dinero,  suponga  que  consideramos  la  tasa  de  interes  (por  ejemplo,  la  de  corto  plazo).  Es 
muy  posible  que  el  dinero  “cause  segun  Granger”  la  tasa  de  interes  y  que  la  tasa  de  interes,  a 
su  vez,  “cause  segun  Granger”  el  PIB.  Por  tanto,  si  no  tomamos  en  cuenta  la  tasa  de  interes 
y  concluimos  que  el  dinero  causa  el  PIB,  la  causalidad  observada  entre  el  PIB  y  la  oferta  de 
dinero  puede  ser  espuria.60  Como  ya  senalamos,  una  forma  de  resolver  esto  es  considerar  un 
sistema  de  ecuaciones  multiples,  como  la  autorregresion  vectorial  (VAR),  que  estudiaremos 
con  cierto  detalle  en  el  capitulo  22. 


EJEMPLO  17.12 

Causalidad  entre 
dinero  e  ingreso 


R.  W.  Hater  establecio,  con  la  prueba  de  Granger,  la  naturaleza  de  la  causalidad  entre  el  PNB 
(en  vez  del  PIB)  y  M  para  Estados  Unidos  de  1960-1  a  1980-IV.  En  vez  de  los  valores  brutos  de 
estas  variables,  empleo  sus  tasas  de  crecimiento,  de  PNB  y  M ;  asimismo,  utilizo  cuatro  rezagos 
de  cada  variable  en  las  dos  regresiones  dadas  antes.  Los  resultados  fueron  los  siguientes:61  En 
cada  caso,  la  hipotesis  nula  establece  que  la  variable  en  consideracion  no  causa  "a  la  manera  de 
Granger"  la  otra  variable. 


Direccion  de  la  causalidad  Valor  F  Decision 

M  -»•  PNB  2.68  Se  rechaza 

PNB  ->  M  0.56  No  se  rechaza 

Estos  resultados  sugieren  que  la  direccion  de  la  causalidad  va  del  crecimiento  del  dinero  al  del 
PNB,  pues  el  valor  Festimado  es  significativo  en  el  nivel  de  5%;  el  valor  Fcritico  es  2.50  (para  4 
y  71  gl).  Por  otra  parte,  no  hay  una  "causalidad  inversa"  del  crecimiento  del  PNB  al  del  dinero, 
pues  el  valor  Fcalculado  no  es  estadisticamente  significativo. 


EJEMPLO  17.13 

Causalidad  entre 
dinero  y  tasa  de  in¬ 
teres  en  Canada 


Consulte  los  datos  sobre  Canada  proporcionados  en  la  tabla  17.5.  Suponga  que  deseamos 
averiguar  si  existe  causalidad  entre  la  oferta  de  dinero  y  la  tasa  de  interes  en  Canada  en  perio- 
dos  trimestrales  de  1979  a  1988.  A  fin  de  demostrar  que  la  prueba  de  Granger  para  causalidad 
depende  de  manera  crftica  del  numero  de  terminos  rezagados  introducidos  en  el  modelo,  pre- 
sentamos  enseguida  los  resultados  de  la  prueba  Fen  la  que  se  emplearon  varios  rezagos  (trimes¬ 
trales).  En  cada  caso,  la  hipotesis  nula  es  que  la  tasa  de  interes  no  causa  (a  la  manera  de  Granger) 
la  oferta  de  dinero  y  viceversa. 

(continue/) 


59  Para  mayores  detalles,  vease  Wojciech  W.  Charemza  y  Derek  F.  Deadman,  New  Directions  in  Econometric 
Practice:  General  to  Specific  Modeling,  Cointegration  and  Vector  Autoregression,  3a.  ed.,  Edward  Elgar,  1 997, 
cap.  6. 

60  Sobre  este  tema,  vease  J.H.  Stock  y  M.W.  Watson,  "Interpreting  the  Evidence  on  Money-Income  Causa¬ 
lity",  lournal  of  Econometrics,  vol.  40,  1 989,  pp.  783-820. 

61  R.W.  Hafer,  "The  Role  of  Fiscal  Policy  in  the  St.  Louis  Equation",  Review,  Federal  Reserve  Bank  of  St.  Louis, 
enero  de  1 982,  pp.  1  7-22.  Vease  la  nota  1 2  de  su  obra  para  los  detalles  del  procedimiento. 
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EJEMPLO  17.13 

( continuation ) 


Direccion  de  la  causalidad  Numero  de  rezagos  Valor  F  Decision 


R^  M 
R 

R^  M 
M  —>■  R 
R  —r  M 
R 

R  —r  M 
M-r  R 


2 

12.92 

Rechazar 

2 

3.22 

Rechazar 

4 

5.59 

Rechazar 

4 

2.45 

Rechazar  (en  7%) 

6 

3.5163 

Rechazar 

6 

3.71 

Rechazar 

8 

1.40 

No  rechazar 

8 

1.62 

No  rechazar 

Observe  estas  caracterfsticas  de  los  resultados  anteriores  de  la  prueba  F:  de  uno  a  seis  reza¬ 
gos  existe  una  causalidad  bilateral  entre  la  oferta  de  dinero  y  la  tasa  de  interes.  No  obstante,  a 
los  ocho  rezagos,  no  existe  una  relacion  estadfsticamente  discernible  entre  las  dos  variables.  Lo 
anterior  refuerza  la  observacion  anterior  de  que  el  resultado  de  la  prueba  de  Granger  es  sensible 
al  numero  de  rezagos  introducidos  en  el  modelo. 


EJEMPLO  17.14 

Causalidad  entre  la 
tasa  de  crecimiento 
del  PIB  y  la  tasa 
bruta  del  ahorro 
en  nueve paises  de 
Asia  oriental 

TAB  LA  17.9 

Prueba  de  causalidad 
bivariada  de  Granger 
entre  la  tasa  de  creci- 
miento  real  del  PIB  per 
capita  y  la  tasa  bruta 
del  ahorro 

Fuente:  Banco  Mundial,  The 
East  Asian  Miracle:  Economic 
Growth  and  Public  Policy, 
Oxford  University  Press,  Nueva 
York,  1993,  p.  244  (tabla  A5-2). 
La  fuente  original  es  Robert 
Summers  y  Alan  Heston,  “The 
Penn  World  Tables  (Mark  5): 

An  Expanded  Set  of  Interna¬ 
tional  Comparisons,  1950-88”, 
Quarterly  Journal  of  Econo¬ 
mics,  vol.  105,  num.  2,  1991. 


Un  estudio  de  la  causalidad  bilateral  entre  la  tasa  de  crecimiento  del  PIB  ( g )  y  la  tasa  bruta  del 
ahorro  (s)  mostro  los  resultados  de  la  tabla  1  7. 9. 62  Con  fines  comparativos,  los  resultados  tam- 
bien  se  presentan  en  la  tabla  los  resultados  de  Estados  Unidos.  Por  mucho,  los  resultados  de  la 
tabla  1  7.9  muestran  que  para  la  mayorfa  de  los  pafses  de  Asia  oriental  la  causalidad  tiene  una 
direccion  desde  la  tasa  de  crecimiento  del  PIB  hacia  la  tasa  bruta  del  ahorro.  En  contraste,  para 
Estados  Unidos  la  causalidad  se  da  en  ambas  direcciones  de  1 950  a  1 988  hasta  el  tercer  rezago; 
pero  a  partir  del  cuarto  y  quinto  rezagos,  la  causalidad  va  de  la  tasa  de  crecimiento  del  PIB  hacia 
la  tasa  de  ahorro,  pero  no  en  sentido  inverso. 


Economia, 

anos 

Anos  de 
rezago 

Variable  del 
lado  derecho 
rezagada 
Ahorro 

Crecimiento 

Economfa, 

anos 

Anos  de 
rezago 

Variable  del 
lado  derecho 
rezagada 
Ahorro 

Crecimiento 

Hong  Kong, 

i 

Sig 

Sig 

Filipinas, 

i 

NS 

Sig 

1960-1988 

2 

Sig 

Sig 

1950-1988 

2 

NS 

Sig 

3 

Sig 

Sig 

3 

NS 

Sig 

4 

Sig 

Sig 

4 

NS 

Sig 

5 

Sig 

Sig 

5 

NS 

Sig 

Indonesia, 

1 

Sig 

Sig 

Singapur, 

1 

NS 

NS 

1965 

2 

NS 

Sig 

1960-1988 

2 

NS 

NS 

3 

NS 

Sig 

3 

NS 

NS 

4 

NS 

Sig 

4 

Sig 

NS 

5 

NS 

Sig 

5 

Sig 

NS 

Japon, 

1 

NS 

Sig 

Taiwan,  China, 

1 

Sig 

Sig 

1950-1988 

2 

NS 

Sig 

1950-1988 

2 

NS 

Sig 

3 

NS 

Sig 

3 

NS 

Sig 

4 

NS 

Sig 

4 

NS 

Sig 

5 

NS 

Sig 

5 

NS 

Sig 

Corea,  Rep.  de, 

1 

Sig 

Sig 

Tailandia, 

1 

NS 

Sig 

1955-1988 

2 

NS 

Sig 

1950-1988 

2 

NS 

Sig 

3 

NS 

Sig 

3 

NS 

Sig 

4 

NS 

Sig 

4 

NS 

Sig 

5 

NS 

Sig 

5 

NS 

Sig 

Malasia, 

1 

Sig 

Sig 

Estados  Unidos, 

1 

Sig 

Sig 

1955-1988 

2 

Sig 

Sig 

1950-1988 

2 

Sig 

Sig 

3 

NS 

NS 

3 

Sig 

Sig 

4 

NS 

NS 

4 

NS 

Sig 

5 

NS 

Sig 

5 

NS 

Sig 

Sig.:  significativa;  NS:  no  significativa. 

Nota:  El  crecimiento  es  el  crecimiento  real  per  capita  del  PIB  a  precios  internacionales  de  1985. 


62  Estos  resultados  provienen  de  The  East  Asian  Miracle:  Growth  and  Public  Policy,  publicado  para  el  Banco 
Mundial  por  Oxford  University  Press,  1993,  p.  244. 
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EJEMPLO  17.14 

( continuation ) 


Para  concluir  el  analisis  de  causalidad  de  Granger,  tenga  en  cuenta  que  la  pregunta  es  si  se 
puede  detectar  estadisticamente  la  direccion  de  la  causalidad  cuando  temporalmente  existe  una 
relacion  entre  los  valores  rezagados-adelantados  de  dos  variables.  Si  se  establece  la  causalidad, 
esta  sugerirla  que  puede  utilizarse  una  variable  para  predecir  la  otra  variable  mejor  de  lo  que 
se  harla  si  se  usara  simplemente  el  pasado  historico  de  esta  ultima  variable.  En  el  caso  de  las 
economlas  del  este  asiatico,  parece  que  puede  predecirse  mejor  la  tasa  bruta  del  ahorro  si  se 
consideran  los  valores  rezagados  de  la  tasa  de  crecimiento  del  PIB,  en  vez  de  tener  en  cuenta 
solo  los  valores  rezagados  de  la  tasa  bruta  del  ahorro. 


*Nota  sobre  causalidad  y  exogeneidad 

Como  estudiaremos  en  los  capitulos  sobre  el  modelo  con  ecuaciones  simultaneas  en  la  Parte 
4  de  esta  obra,  a  menudo  las  variables  economicas  se  clasifican  segiin  dos  amplias  categorlas: 
endogenas  y  exogenas.  En  terminos  generales,  las  variables  endogenas  equivalen  a  las  variables 
dependientes  de  un  modelo  de  regresion  con  una  sola  ecuacion,  y  las  exogenas,  a  las  variables  X, 
o  regresoras,  en  tal  modelo,  en  tanto  las  variables  X  no  esten  correlacionadas  con  el  termino  de 
error  de  esa  ecuacion.63 

Ahora  surge  una  pregunta  importante:  suponga  que  mediante  la  prueba  de  causalidad  de 
Granger  descubrimos  que  una  variable  X  causa  (a  la  manera  de  Granger)  una  variable  Y,  sin  que 
esta  ultima  cause  a  aquella  (es  decir,  no  hay  causalidad  bilateral),  ^podemos  considerar  entonces 
exogena  la  variable  XI  En  otras  palabras,  ^con  la  causalidad  de  Granger  (o  la  no  causalidad) 
podemos  establecer  exogeneidad? 

Para  responder  necesitamos  distinguir  tres  tipos  de  exogeneidad:  1)  debil,  2)  fuerte  y  3)  super. 
A  fin  de  conservar  la  simplicidad  en  la  exposicion,  suponga  que  solo  tenemos  dos  variables,  Y, 
y  X,,  y  que  hacemos  la  regresion  de  Y,  sobre  X,.  Decimos  que  X,  es  debilmente  exogena  si  Yt, 
ademas,  no  explica  la  existencia  de  X.  En  este  caso,  la  estimacion  y  la  prueba  del  modelo  de 
regresion  pueden  hacerse  condicionales  a  los  valores  de  X,.  En  realidad,  recuerde,  del  capitulo  2, 
que  observamos  que  el  modelo  de  regresion  estaba  condicionado  a  los  valores  de  las  variables  X. 
Decimos  que  A,  es  fuertemente  exogena  si  los  valores  Y,  actuates  y  rezagados,  no  la  explican  (es 
decir,  no  existe  una  relacion  de  realimentacion).  Asimismo,  X,  es  superexogena  si  los  parametros 
en  la  regresion  de  Y yXno  cambian  aunque  si  lo  hagan  los  valores  de  X;  es  decir,  los  valores  de 
los  parametros  son  invariantes  ante  los  cambios  de  (los)  valor(es)  de  X.  Si  asi  sucediese  en  efecto, 
la  famosa  “crltica  de  Lucas”  perderia  su  fuerza.64 

La  razon  para  distinguir  entre  los  tres  tipos  de  exogeneidad  es  que  “En  general,  la  exogeneidad 
debil  es  todo  lo  que  se  requiere  para  la  estimacion  y  la  comprobacion,  la  exogeneidad  fuerte  es 
necesaria  para  la  prediccion,  y  la  superexogeneidad  se  necesita  para  el  analisis  de  politicas”.65 

De  regreso  con  el  tema  de  la  causalidad  de  Granger,  si  una  variable,  por  ejemplo  Y,  no  causa 
otra  variable,  digamos  X,  ^se  puede  suponer  entonces  que  esta  iiltima  es  exogena?  Por  desgracia, 
la  respuesta  no  es  inmediata.  Si  hablamos  de  exogeneidad  debil,  podemos  demostrar  que  la  cau¬ 
salidad  de  Granger  no  es  necesaria  ni  suficiente  para  establecer  la  exogeneidad.  Por  otra  parte, 
la  causalidad  de  Granger  es  necesaria  (pero  no  suficiente)  para  la  exogeneidad  fuerte.  Las  pruebas 
de  ambos  enunciados  trascienden  el  alcance  de  este  libro.66  Asi,  para  nuestro  proposito,  es  mejor 


*  Opcional. 

63  Desde  luego,  si  las  variables  explicativas  incluyen  uno  o  mas  terminos  rezagados  de  la  variable  endogena, 
quiza  no  se  satisfaga  este  requisito. 

64  Robert  Lucas,  ganador  del  Premio  Nobel,  planted  que  las  relaciones  entre  las  variables  economicas  pue¬ 
den  cambiar  cuando  las  politicas  varlan,  en  cuyo  caso  los  parametros  estimados  a  partir  de  un  modelo  de 
regresion  tendran  escaso  valor  para  la  prediccion.  Sobre  este  tema,  vease  Oliver  Blanchard,  Macroeconomics, 
Prentice  Hall,  1997,  pp.  371-372. 

65  Keith  Cuthbertson,  Stephen  G.  Hall  y  Mark  P.  Taylor,  Applied  Econometric  Techniques,  University  of  Michi¬ 
gan  Press,  1992,  p.  100. 

66  Para  un  analisis  comparativamente  sencillo,  vease  G.S.  Maddala,  Introduction  to  Econometrics,  2a.  ed., 
Macmillan,  Nueva  York,  1 992,  pp.  394-395,  y  tambien  David  F.  Hendry,  Dynamic  Econometrics,  Oxford  Uni¬ 
versity  Press,  Nueva  York,  capitulo  5. 
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conservar  separados  los  conceptos  de  causalidad  de  Granger  y  exogeneidad,  y  tratar  al  primero 
como  una  herramienta  descriptiva  util  para  los  datos  de  las  series  de  tiempo.  En  el  capitulo  19 
analizaremos  una  prueba  para  averiguar  si  una  variable  puede  considerarse  exogena. 


Resumen  y 
conclusiones 


1 .  Por  razones  psicologicas,  tecnologicas  e  institucionales,  una  variable  regresada  puede  res¬ 
ponder  a  una  o  varias  regresoras  con  un  rezago  de  tiempo.  Los  modelos  de  regresion  que 
tienen  en  cuenta  rezagos  de  tiempo  se  conocen  como  modelos  de  regresion  dinamicos  o 
rezagados. 

2.  Hay  dos  tipos  de  modelos  rezagados:  de  rezagos  distribuidos  y  autorregresivos.  En 
el  primero,  los  valores  actuales  y  rezagados  de  las  regresoras  son  variables  explicativas. 
En  el  ultimo,  el  (los)  valor(es)  rezagado(s)  de  la  regresada  aparece(n)  como  variable(s) 
explicativa(s). 

3.  Un  modelo  puramente  de  rezagos  distribuidos  se  estima  mediante  MCO,  pero  en  ese  caso 
aparece  el  problema  de  multicolinealidad,  pues  los  valores  rezagados  sucesivos  de  una  regre- 
sora  tienden  a  estar  correlacionados. 

4.  Como  resultado,  se  han  disenado  algunos  metodos  abreviados:  los  mecanismos  de  Koyck,  de 
expectativas  adaptativas  y  de  ajuste  parcial.  El  primero  es  un  metodo  puramente  algebraico 
y  los  otros  dos  se  basan  en  principios  economicos. 

5.  Una  caracteristica  unica  de  los  modelos  de  Koyck,  de  expectativas  adaptativas  y  de  ajuste 
parcial  es  que  todos  son  autorregresivos  por  naturaleza,  es  decir,  el  valor  o  valores  de  la 
variable  regresada  aparecen  como  una  de  las  variables  explicativas. 

6.  La  autorregresividad  plantea  desafios  en  la  estimacion;  si  la  variable  regresada  rezagada  esta 
correlacionada  con  el  termino  de  error,  los  estimadores  de  MCO  de  tales  modelos  no  solo 
estan  sesgados,  sino  que  tambien  son  inconsistentes.  El  sesgo  y  la  inconsistencia  se  presen- 
tan  con  los  modelos  de  Koyck  y  de  expectativas  adaptativas;  el  modelo  de  ajuste  parcial  es 
diferente  y  se  estima  consistentemente  mediante  MCO,  a  pesar  de  la  presencia  de  la  variable 
regresada  rezagada. 

7.  Para  estimar  los  modelos  de  Koyck  y  de  expectativas  adaptativas  consistentemente,  el  me¬ 
todo  mas  comun  es  el  metodo  de  variables  instrumentales.  La  variable  instrumental  es  una 
variable  representante  para  la  variable  regresada  rezagada  pero  con  la  propiedad  de  que  no 
esta  correlacionada  con  el  termino  de  error. 

8.  Una  alternativa  para  los  modelos  rezagados  de  regresion  recien  analizada  es  el  modelo  de  re¬ 
zagos  distribuidos  polinomial  de  Almon,  con  el  cual  se  evitan  los  problemas  de  estimacion 
asociados  a  los  modelos  autorregresivos.  El  principal  problema  con  el  metodo  de  Almon, 
sin  embargo,  es  que  se  debe  especificar  por  anticipado  la  longitud  del  rezago  y  el  grado  del 
polinomio.  Hay  metodos  formales  e  informales  para  resolver  la  seleccion  de  la  longitud 
del  rezago  y  el  grado  del  polinomio. 

9.  A  pesar  de  los  problemas  de  estimacion,  que  pueden  resolverse,  los  modelos  distribuidos  y 
autorregresivos  han  demostrado  ser  muy  utiles  en  la  economia  empirica,  porque  con  ellos 
es  posible  dinamizar  la  teoria  economica  que  de  otra  forma  seria  estatica,  al  tener  en  cuenta 
explicitamente  el  papel  del  tiempo.  Tales  modelos  permiten  diferenciar  respuestas  de  corto  y 
largo  plazos  de  la  variable  dependiente  ante  cambios  unitarios  en  el  valor  de  la(s)  variable(s) 
explicativa(s).  Asl,  para  estimar  los  plazos  corto  y  largo  de  precio,  ingreso,  sustitucion  y 
otras  elasticidades,  estos  modelos  han  demostrado  ser  muy  utiles.67 

10.  Debido  a  los  rezagos  participantes,  los  modelos  distribuidos  y/o  autorregresivos  conducen  al 
tema  de  la  causalidad  en  las  variables  economicas.  En  la  practica,  la  elaboration  de  modelos 
de  causalidad  de  Granger  ha  recibido  considerable  atencion.  Pero  se  debe  tener  mucho 


67  Para  aplicaciones  de  estos  modelos,  vease  Arnold  C.  Harberger  (ed.),  The  Demand  for  Durable  Goods,  Uni¬ 
versity  of  Chicago  Press,  Chicago,  1 960. 
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EJERCICIOS 


cuidado  con  la  metodologia  de  Granger,  porque  es  muy  sensible  a  la  longitud  del  rezago 
utilizado  en  el  modelo. 

11.  Aunque  una  variable  (X)  cause  (a  la  manera  de  Granger)  otra  variable  (Y),  eso  no  significa 
que  X  sea  exogena.  Distinguimos  tres  tipos  de  exogeneidad  (debil,  fuerte  y  super)  y  senala- 
mos  la  importancia  de  dicha  clasificacion. 


Preguntas 

17.1.  Explique,  de  manera  breve,  si  las  siguientes  afirmaciones  son  verdaderas,  falsas  o  incier- 

tas: 

a)  Todos  los  modelos  econometricos  son  en  esencia  dinamicos. 

b )  El  modelo  de  Koyck  no  tiene  mucho  sentido  si  algunos  coeficientes  de  los  rezagos 
distribuidos  son  positivos  y  otros  negativos. 

c)  Si  los  modelos  de  Koyck  y  de  expectativas  adaptativas  se  estiman  mediante  MCO,  los 
estimadores  seran  sesgados  pero  consistentes. 

d)  En  el  modelo  de  ajuste  parcial,  los  estimadores  de  MCO  son  sesgados  en  muestras 
finitas. 

e)  En  presencia  de  una  o  varias  regresoras  estocasticas  y  de  un  termino  de  error  autoco- 
rrelacionado,  el  metodo  de  variables  instrumentales  produce  estimaciones  insesgadas 
y  consistentes. 

/)  En  presencia  de  una  variable  regresada  rezagada  como  variable  regresora,  el  estadis- 
tico  d  de  Durbin- Watson  para  detectar  autocorrelacion  es  practicamente  inutil. 

g )  La  prueba  h  de  Durbin  es  valida  en  muestras  grandes  y  pequenas. 

h )  La  prueba  de  Granger  es  una  prueba  de  precedencia  mas  que  de  causalidad. 

17.2.  Desarrolle  la  ecuacion  (17.7.2). 

17.3.  Demuestre  la  ecuacion  (17.8.3). 

17.4.  Suponga  que  los  precios  se  forman  de  acuerdo  con  la  siguiente  hipotesis  de  expectativas 

adaptativas: 

p;  =  yP,_x  +  (1  -  y)P*_ J 

donde  P*  es  el  precio  esperado  y  P  es  el  precio  observado. 

Complete  la  siguiente  tabla,  suponiendo  que  y  —  0.5:* 


Periodo 

P* 

P 

t- 3 

100 

110 

t-  2 

125 

t-  1 

155 

f 

185 

t+  1 

— 

17.5.  Considere  el  modelo 


Yt  —  a  +  fi\X\t  +  P2X2 1  +  PiY,- 1  +  v, 


*Adaptado  de  C.K.  Shaw,  op.  cit.,  p.  26. 
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Suponga  que  7,_i  y  v,  estan  correlacionadas.  Para  eliminar  la  correlation,  suponga  que 
utilizamos  el  siguiente  metodo  de  variable  instrumental:  primero  haga  la  regresion  de  Y, 
sobre  X\,  y  X-^  y  obtenga  el  estimado  Y,  de  esta  regresion.  Luego  efectue  la  regresion 

Y,  —  a  +  P\Xlt  +  P2X2  r  +  foY,- 1  +  v, 

donde  Yt-\  se  estiman  de  la  regresion  de  la  primera  etapa. 

a)  /.Como  elimina  este  procedimiento  la  correlacion  entre  Y,_\  y  v,  en  el  modelo  origi¬ 
nal? 

b)  /,  Cuales  son  las  ventajas  del  procedimiento  recomendado  sobre  el  enfoque  de  Li- 
viatan? 

*17.6.  a)  Desarrolle  (17.4.8). 

b)  Evalue  el  rezago  medio  de  X  =  0.2,  0.4,  0.6,  0.8. 

c)  /.Hay  alguna  relation  sistematica  entre  el  valor  de  X  y  el  rezago  medio? 

17.7.  a )  Pruebe  que  para  el  modelo  de  Koyck,  el  rezago  medio  es  como  el  que  aparece  en 

(17.4.10). 

b)  Si  X  es  relativamente  grande,  /.cuales  son  sus  implicaciones? 

17.8.  Con  la  formula  para  el  rezago  medio  dada  en  (17.4.9),  verifique  el  rezago  medio  de 
10.959  trimestres  reportado  en  la  ilustracion  de  la  tabla  17.1. 

17.9.  Suponga  que 

Mt  —  a  +  ySi  Y*  +  P2R*  +  ut 

donde  M  —  demanda  de  saldos  reales  de  efectivo,  Y*  —  ingreso  real  esperado  y  R*  —  tasa 
de  interes  esperada.  Suponga  que  las  expectativas  se  formulan  de  la  siguiente  manera: 

Y*  =  y]Y,  +  (\-  yi)y;i, 

R*  =  Y2R[  +  (\-Y2)RU 

donde  y  1  y  /2  son  los  coeficientes  de  expectativas,  ambos  entre  0  y  1 . 

a)  /.Como  expresa  M,  en  terminos  de  las  cantidades  observables? 

b)  /.Quc  problemas  de  estimacion  preve? 

*17.10.  Si  estima  (17.7.2)  por  MCO,  /.pucdc  derivar  estimaciones  de  los  parametros  originales? 
/,Que  problemas  preve?  (Para  mayores  detalles,  vea  Roger  N.  Wand ).  ' 

17.1 1.  Modelo  de  correlacion  serial.  Considere  el  siguiente  modelo: 

Yt  —  oi  +  pXt  +  ut 

Suponga  que  u,  sigue  el  esquema  autorregresivo  de  Markov  de  primer  orden  dado  en  el 
capitulo  12,  a  saber, 

ut  —  pUf—l  +  st 

donde  p  es  el  coeficiente  de  autocorrelation  (de  primer  orden)  y  donde  s,  satisface  todos 
los  supuestos  clasicos  de  MCO.  Entonces,  como  vimos  en  el  capitulo  12,  el  modelo 

Yt  —  ot(  1  —  p)  +  P(Xt  —  pX,_  1)  +  pYt_\  +  st 

tendra  un  termino  de  error  serialmente  independiente,  lo  que  posibilita  la  estimacion 
por  MCO.  Pero  este  modelo,  llamado  modelo  de  correlacion  serial,  se  parece  mucho  a 


*  Opcional. 

t  "Misspecification  in  the  'Partial  Adjustment'  and  'Adaptive  Expectations'  Models",  International  Economic 
Review,  vol.  9,  num.  2,  junio  de  1968,  pp.  204-21  7. 
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los  modelos  de  Koyck,  de  expectativas  adaptativas  y  de  ajuste  partial.  (',C6mo  sabria,  en 
cualquier  situation  dada,  cual  de  los  modelos  anteriores  es  el  apropiado?* * 


17.12.  Considere  el  modelo  de  Koyck  (o,  para  ese  caso,  el  de  expectativas  adaptativas)  dado  en 
(17.4.7),  a  saber, 


Yt  —  a(l  —  X)  +  PoXt  +  XYt-  i  +  {ut  —  Xut~  i) 


Suponga  que  en  el  modelo  original,  w,  sigue  el  esquema  autorregresivo  de  primer  orden  u, 
—  pux  _t=  et,  donde  p  es  el  coeficiente  de  autocorrelation  y  donde  s,  satisface  todos  los 
supuestos  clasicos  de  MCO. 

a )  Si  p  —  X,  7 cl  modelo  de  Koyck  puede  estimarse  mediante  MCO? 

b)  (.Scran  insesgadas  las  estimaciones  asi  obtenidas?  ^Consistentes?  (Por  que? 

c)  (,Que  tan  razonable  es  suponer  que  p  —  Xl 

17.13.  Modelo  de  rezagos  distribuidos  triangular  o  aritmetico .1  Este  modelo  supone  que  el  es- 
timulo  (la  variable  explicativa)  ejerce  su  mayor  impacto  en  el  tiempo  actual  y  luego  se 
reduce  en  cantidades  iguales  hasta  llegar  a  cero  a  medida  que  uno  retrocede  en  el  pasado 
distante.  Geometricamente,  esto  se  muestra  en  la  figura  17.9.  Segun  esta  distribution, 
suponga  que  efectuamos  la  siguiente  sucesion  de  regresiones: 


3X,  +  2X,_!  +  X,_2 
6 


4X,  +  3X,.i  +  2Xt-2  + 
10 


etc.,  y  seleccionamos  la  regresion  que  da  la  R2  mas  elevada  como  la  “mejor”  regresion. 
Comente  esta  estrategia. 


FIGURA  17.9 

Esquema  de  rezagos 
aritmetico  o  triangular 
(de  Fisher). 


Tiempo 


0 


*  Hay  un  analisis  del  modelo  de  correlacion  serial  en  Zvi  Criliches,  "Distributed  Lags:  A  Survey",  Econome- 
trica,  vol.  35,  num.  1,  enero  de  1967,  p.  34. 

*  Irving  Fisher  propuso  este  modelo  en  "Note  on  a  Short-Cut  Method  for  Calculating  Distributed  Lags",  In¬ 
ternational  Statistical  Bulletin,  1937,  pp.  323-328. 
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17.14.  Con  base  en  la  information  trimestral  del  periodo  1950-1960,  F.  P.  R.  Brechling  obtuvo 
la  siguiente  funcion  de  demanda  de  trabajo  para  la  economla  britanica  (las  cifras  entre 
parentesis  son  errores  estandar):* 


E,  =  14.22  +  0.1720,  -  0.028/  -  0.0007/2  -  0 .297£,_i 
(2.61)  (0.014)  (0.015)  (0.0002)  (0.033) 

R2  —  0.76  d  =  1.37 


donde  E,  —  ( E ,  —  Et_\) 
Q  =  production 
t  =  tiempo 


La  ecuacion  anterior  se  baso  en  el  supuesto  de  que  el  nivel  deseado  de  empleo,  E*.  es  una 
funcion  de  la  produccion,  del  tiempo  y  del  tiempo  elevado  al  cuadrado,  y  segun  la  hipo- 
tesis  de  que  E,  —  Et_\  —  8(E*  —  £)_ i),  donde  8,  el  coeficiente  de  ajuste,  se  encuentra 
entre  0  y  1 . 

a )  Interprete  la  regresion  anterior. 

b )  /,Cual  es  el  valor  de  81 

c)  Derive  la  funcion  de  demanda  de  trabajo  de  largo  plazo  a  partir  de  la  funcion  de  de¬ 
manda  de  corto  plazo  estimada. 

d)  /.Como  comprobaria  la  existencia  de  la  correlation  serial  en  el  modelo  anterior? 

17.15.  Griliches  estudio  la  demanda  agricola  de  tractores  con  el  siguiente  modelo:1’ 

T*  —  rv  yP'  Y^1 

donde  T*  —  existencias  deseadas  de  tractores 
X\  —  precios  relativos  de  los  tractores 
X2  —  tasa  de  interes 


Con  el  modelo  de  ajuste  de  existencias,  obtuvo  los  siguientes  resultados  para  el  periodo 
1921-1957: 


log  T,  —  constante  —  0.218  log  X\  t_^  —  0.855  logX2.,_i  +  0.864  log  Tt_ j 


(0.051)  (0.170)  (0.035) 

R2  =  0.987 


donde  las  cifras  entre  parentesis  son  los  errores  estandar  estimados. 

a)  ,'.Cual  es  el  coeficiente  de  ajuste  estimado? 

b)  Cullies  son  las  elasticidades  de  precio  de  corto  y  largo  plazos? 

c)  ,',Cuale.s  son  las  elasticidades  de  interes  correspondientes? 

d)  Cullies  son  las  razones  para  una  tasa  de  ajuste  alta  o  baja  en  este  modelo? 

17.16.  Siempre  que  la  variable  dependiente  rezagada  aparezca  como  variable  explicativa,  la  R2 
suele  ser  mucho  mas  alta  que  cuando  no  aparece.  ,'.Cuales  son  las  razones  para  este  co- 
mentario? 


*F.P.R.  Brechling,  "The  Relationship  between  Output  and  Employment  in  British  Manufacturing  Industries", 
Review  of  Economic  Studies,  vol.  32,  julio  de  1965. 

t  Zvi  Griliches,  "The  Demand  for  a  Durable  Input:  Farm  Tractors  in  the  United  States,  1 921  -1 957",  en  Arnold 
C.  Flarberger  (ed.),  The  Demand  for  Durable  Goods,  University  of  Chicago  Press,  Chicago,  1960. 
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FIGURA  17.10 

Estructuras  de  rezagos 
hipoteticas. 
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17.17.  Considere  los  patrones  de  rezago  de  la  figura  1 7. 1 0.  que  grado  del  polinomio  ajustaria 
las  estructuras  de  rezagos  y  por  que? 

17.18.  Considere  la  ecuacion  (17.13.4): 


pi  —  ao  +  a\i  +  #2* 2  +  •  •  •  +  cimim 


Obtenemos  la  varianza  de  Pi  a  partir  de  las  varianzas  de  <5/  con  la  siguiente  formula: 
war  (Pi)  =  var(2o  +  a\i  +  S2/2  H - h  amim) 

m 

=  ^  i2/var (ay)  +  2  ^  /(./+/>) cov  («yflp) 

7=0  j<p 

a)  Mediante  la  formula  anterior,  encuentre  la  varianza  de  expresada  como 

Pi  —  do  +  fll/  +  fl2i2 

Pi  =  Aq  “h  fli?  “h  fl2Z“  -|-  fl3Z2 


Z>)  Si  las  varianzas  de  a,  son  grandes  en  relacion  con  ellas  mismas,  (',la  varianza  de  sera 
grande  tambien?  (lPor  que? 

17.19.  Considere  el  siguiente  modelo  de  rezagos  distribuidos: 


Yt  —  a  +  PoXt  +  P\Xt-\  +  fcXt-i  +  PiXf-i  +  £>i,Xt-.\  +  ut 
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FIGURA  17.11 

Modelo  de  rezagos  distri- 
buidos  en  V  invertida. 


ft 


0  12  3 


Rezago 


Suponga  que  ft  se  expresa  adecuadamente  mediante  el  polinomio  de  segundo  grado  de  la 
siguiente  manera: 


Pi  —  a0  +  a\i  +  fl2*2 


<,C6mo  estimarla  las  ft  si  deseamos  imponer  la  restriccion  de  que  /Jo  =  fti  —  0? 

17.20.  El  modelo  de  rezagos  distribuidos  en  V  invertida.  Considere  el  modelo  de  rezagos  distri- 
buidos  finitos  de  k  periodos 


Yt  —  a  +  PqX,  +  PiXt_i  +  +  ■  ■  ■  +  PkXt-k  +  Ut 


F.  DeLeeuw  propuso  la  estructura  para  las  ft  como  la  presentada  en  la  figura  17.1 1,  donde 
las  P  siguen  la  forma  de  V  invertida.  Si  suponemos,  por  simplicidad,  que  k  (la  longitud 
maxima  del  rezago)  es  un  numero  par  y  tambien  que  /So  y  Pk  son  cero,  DeLeeuw  propone 
el  siguiente  esquema  para  las  P\* 


Pi  =  ip 


=  (k-i)P 


(',C6mo  utilizaria  el  esquema  de  DeLeeuw  para  estimar  los  parametros  del  modelo  ante¬ 
rior  de  rezagos  distribuidos  de  k  periodos? 

17.21.  Consulte  el  ejercicio  12.15.  Como  el  valor  d  que  all!  aparece  es  de  poca  utilidad  para 
detectar  la  autocorrelacion  (de  primer  orden)  (^por  que?),  ^como  probaria  la  presencia  de 
autocorrelacion  en  este  caso? 

Ejercicios  empiricos 

17.22.  Considere  el  siguiente  modelo: 


Y*  —  a  +  PqXi  +  ut 


donde  Y*  —  el  gasto  empresarial  deseado,  o  de  largo  plazo,  en  nueva  planta  y  equipo, 
X,  —  ventas  y  t  —  tiempo.  Con  el  modelo  de  ajuste  de  existencias,  estime  los  parametros 


*  Vease  su  artfculo  "The  Demand  for  Capital  Goods  by  Manufacturers:  A  Study  of  Quarterly  Time  Series", 
Econometrica,  vol.  30,  num.  3,  julio  de  1962,  pp.  407-423. 
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TABLA  17.10 

Inversion  en  planta  flja  y 
equipo  en  el  sector  ma- 
nufacturero  Y  y  ventas 
industrials  X2  en  miles 
de  millones  de  dolares, 
ajustadas  por  estaciona- 
lidad,  Estados  Unidos, 
1970-1991 

Fuente:  Economic  Report  of  the 
President,  1993.  Los  datos  sobre 
Y  se  tomaron  de  la  tabla  B-52,  p. 
407;  los  datos  sobre  X  se  tomaron 
de  la  tabla  8-53,  p.  408. 


Ano 

Gasto  en  planta,  Y 

Ventas,  X2 

1970 

36.99 

52.805 

1971 

33.60 

55.906 

1972 

35.42 

63.027 

1973 

42.35 

72.931 

1974 

52.48 

84.790 

1975 

53.66 

86.589 

1976 

58.53 

98.797 

1977 

67.48 

113.201 

1978 

78.13 

126.905 

1979 

95.13 

143.936 

1980 

112.60 

154.391 

Ano 

Gasto  en  planta,  Y 

Ventas,  X2 

1981 

128.68 

168.129 

1982 

123.97 

163.351 

1983 

117.35 

172.547 

1984 

139.61 

190.682 

1985 

152.88 

194.538 

1986 

137.95 

194.657 

1987 

141.06 

206.326 

1988 

163.45 

223.541 

1989 

183.80 

232.724 

1990 

192.61 

239.459 

1991 

182.81 

235.142 

de  la  funcion  de  demanda  de  largo  y  de  corto  plazos  del  gasto  en  la  nueva  planta  y  equipo 
a  partir  de  la  informacion  en  la  tabla  17.10. 

<^C6mo  averiguaria  si  hay  correlacion  serial  en  la  informacion? 

17.23.  Con  la  informacion  del  ejercicio  17.22,  considere  el  siguiente  modelo: 

Y*  =  A)^f 1  eu' 

Con  el  modelo  de  ajuste  de  existencias  Qpor  que?),  estime  las  elasticidades  de  corto  y 
de  largo  plazos  del  gasto  en  nueva  planta  y  equipo  respecto  de  las  ventas.  Compare  los 
resultados  con  los  obtenidos  en  el  ejercicio  17.22.  (',Quc  modelo  seleccionaria  y  por  que? 
(',Hav  correlacion  serial  en  la  informacion?  ^Como  sabe? 

17.24.  Con  la  informacion  del  ejercicio  17.22,  suponga  que 

Yt  —  (x  +  PX*  +  Uf 

donde  X*  son  las  ventas  deseadas.  Estime  los  parametros  de  este  modelo  y  compare  los 
resultados  con  los  obtenidos  en  el  ejercicio  17.22.  /.Como  decidiria  cual  es  el  modelo 
apropiado?  Con  base  en  el  estadistico  h,  concluiria  que  hay  correlacion  serial  en  la  infor¬ 
macion? 

17.25.  Suponga  que  alguien  lo  convence  de  que  la  relacion  entre  el  gasto  de  la  empresa  en  una 
nueva  planta  y  en  equipo  y  las  ventas  es  la  siguiente: 

Y*  =  a  +  PX*  +  u, 

donde  Y*  es  el  gasto  deseado  y  X*  son  las  ventas  deseadas  o  esperadas.  Con  la  informa¬ 
cion  del  ejercicio  17.22,  estime  este  modelo  y  comente  los  resultados. 

17.26.  Con  los  datos  del  ejercicio  17.22,  determine  si  el  gasto  en  planta  causa  (a  la  manera  de 
Granger)  las  ventas  o  si  las  ventas  causan  (a  la  manera  de  Granger)  el  gasto  en  planta.  Uti- 
lice  hasta  seis  rezagos  y  comente  los  resultados.  7 Que  conclusiones  importantes  obtiene 
de  este  ejercicio? 

17.27.  Suponga  que  las  ventas  en  el  ejercicio  17.22  tienen  un  efecto  de  rezagos  distribuidos 
sobre  el  gasto  por  concepto  de  planta  y  equipo.  Ajuste  un  modelo  de  rezagos  Almon  ade- 
cuado  para  los  datos. 

17.28.  Estime  de  nuevo  la  ecuacion  (17.13.16)  imponiendo  1)  una  restriccion  sobre  el  extremo 
cercano,  2)  una  restriccion  sobre  el  extremo  lejano  y  3)  restricciones  en  ambos  extremos; 
ademas,  compare  los  resultados  de  la  ecuacion  (17.13.16).  (',Que  conclusion  general  ob¬ 
tiene? 
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TABLA  17.11  Inversiones,  ventas  y  tasa  de  interes,  Estados  Unidos,  1960-1999 


Observacion 

Inversion 

Ventas 

Interes 

Observacion 

Inversion 

Ventas 

Interes 

1960 

4.9 

60  827 

4.41 

1980 

69.6 

327  233 

11.94 

1961 

5.2 

61  159 

4.35 

1981 

82.4 

355  822 

14.17 

1962 

5.7 

65  662 

4.33 

1982 

88.9 

347  625 

13.79 

1963 

6.5 

68  995 

4.26 

1983 

100.8 

369  286 

12.04 

1964 

7.3 

73  682 

4.40 

1984 

121.7 

410  124 

12.71 

1965 

8.5 

80  283 

4.49 

1985 

130.8 

422  583 

11.37 

1966 

10.6 

87  187 

5.13 

1986 

137.6 

430  419 

9.02 

1967 

11.2 

90  820 

5.51 

1987 

141.9 

457  735 

9.38 

1968 

11.9 

96  685 

6.18 

1988 

155.9 

497 157 

9.71 

1969 

14.6 

105  690 

7.03 

1989 

173.0 

527  039 

9.26 

1970 

16.7 

108  221 

8.04 

1990 

176.1 

545  909 

9.32 

1971 

17.3 

116  895 

7.39 

1991 

181.4 

542  815 

8.77 

1972 

19.3 

131  081 

7.21 

1992 

197.5 

5 67 176 

8.14 

1973 

23.0 

153  677 

7.44 

1993 

215.0 

595  628 

7.22 

1974 

26.8 

177  912 

8.57 

1994 

233.7 

639  163 

7.96 

1975 

28.2 

182 198 

8.83 

1995 

262.0 

684  982 

7.59 

1976 

32.4 

204  150 

8.43 

1996 

287.3 

718  113 

7.37 

1977 

38.6 

229  513 

8.02 

1997 

325.2 

753  445 

7.26 

1978 

48.3 

260  320 

8.73 

1998 

367.4 

779  413 

6.53 

1979 

58.6 

297  701 

9.63 

1999 

433.0 

833  079 

7.04 

Notas:  Inversion  =  inversion  fija  privada  en  equipo  para  el  procesamiento  de  informacion  y  software,  miles  de  millones  de  dolares,  ajustada  por  estacionalidad. 
Ventas  =  ventas  totales  en  industria  y  comercio,  millones  de  dolares,  ajustadas  por  estacionalidad. 

Interes  =  tasa  de  los  bonos  empresariales  Aaa  de  Moody,  %. 

Fuente:  Economic  Report  of  the  President,  2001,  tablas  B-18,  B-57  y  B-73. 


17.29.  La  tabla  17.11  proporciona  datos  sobre  la  inversion  privada  fija  en  procesamiento  de 
informacion  y  equipo  ( Y ,  en  miles  de  millones  de  dolares),  las  ventas  totales  en  industria 
y  comercio  ( X2  en  millones  de  dolares)  y  la  tasa  de  interes  (X3,  tasa  de  los  bonos  empre¬ 
sariales  Aaa  de  Moody);  los  datos  sobre  Y yX2  estan  ajustados  por  estacionalidad. 

a)  Pruebe  la  causalidad  bilateral  entre  Y  y  Xi,  con  especial  atencion  a  la  longitud  del 
rezago. 

b)  Pruebe  la  causalidad  bilateral  entre  Yy  X3,  con  especial  atencion  tambien  a  la  longitud 
del  rezago. 

c)  Para  permitir  un  efecto  de  rezagos  distribuidos  de  las  ventas  sobre  la  inversion,  su- 
ponga  que  se  decide  por  la  tecnica  de  rezagos  de  Almon.  Muestre  el  modelo  estimado 
despues  de  fijarse  con  cuidado  en  la  longitud  del  rezago,  asi  como  en  el  grado  del 
polinomio. 

17.30.  La  tabla  17.12  proporciona  los  datos  sobre  indices  del  salario  real  por  hora  ( Y )  y  de  la 
productividad  por  hora  ( X2 ),  con  1992  =  100  como  base  de  ambos  indices  en  el  sector  de 
negocios  de  la  economia  estadounidense  de  1960  a  1999,  asi  como  la  tasa  de  desempleo 
civil  (A3)  durante  el  mismo  periodo. 

a)  /.Como  decide  si  la  compensacion  salarial  determina  la  productividad  laboral  o  vice- 
versa? 

b)  Elabore  un  modelo  adecuado  para  probar  la  conjetura  de  a),  y  proporcione  las  estadls- 
ticas  usuales. 

c)  <^Es  posible  que  la  tasa  de  desempleo  tenga  algun  efecto  sobre  la  compensacion  sa¬ 
larial?,  y  de  ser  asi,  /,como  tomaria  esto  en  cuenta?  Muestre  los  analisis  estadisticos 
necesarios. 
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TABLA  17.12  Remuneration,  productividad  y  tasa  de  desempleo,  Estados  Unidos,  1960-1999 


Observation 

REMUN 

PRODUCT 

TasDES 

Observation 

REMUN 

PRODUCT 

TasDES 

1960 

60.0 

48.8 

5.5 

1980 

89.5 

80.4 

7.1 

1961 

61.8 

50.6 

6.7 

1981 

89.5 

82.0 

7.6 

1962 

63.9 

52.9 

5.5 

1982 

90.9 

81.7 

9.7 

1963 

65.4 

55.0 

5.7 

1983 

91.0 

84.6 

9.6 

1964 

67.9 

57.5 

5.2 

1984 

91.3 

87.0 

7.5 

1965 

69.4 

59.6 

4.5 

1985 

92.7 

88.7 

7.2 

1966 

71.9 

62.0 

3.8 

1986 

95.8 

91.4 

7.0 

1967 

73.8 

63.4 

3.8 

1987 

96.3 

91.9 

6.2 

1968 

76.3 

65.4 

3.6 

1988 

97.3 

93.0 

5.5 

1969 

77.4 

65.7 

3.5 

1989 

95.9 

93.9 

5.3 

1970 

78.9 

67.0 

4.9 

1990 

96.5 

95.2 

5.6 

1971 

80.4 

69.9 

5.9 

1991 

97.5 

96.3 

6.8 

1972 

82.7 

72.2 

5.6 

1992 

100.0 

100.0 

7.5 

1973 

84.5 

74.5 

4.9 

1993 

99.9 

100.5 

6.9 

1974 

83.5 

73.2 

5.6 

1994 

99.7 

101.9 

6.1 

1975 

84.4 

75.8 

8.5 

1995 

99.3 

102.6 

5.6 

1976 

86.8 

78.5 

7.7 

1996 

99.7 

105.4 

5.4 

1977 

87.9 

79.8 

7.1 

1997 

100.4 

107.6 

4.9 

1978 

89.5 

80.7 

6.1 

1998 

104.3 

110.5 

4.5 

1979 

89.7 

80.7 

5.8 

1999 

107.3 

114.0 

4.2 

Notas:  REMUN  =  indice  de  remuneration  real  por  hora  (1992  =  100). 
PRODUCT  =  indice  de  production  por  hora  (1992  =  100). 
TasDES  =  tasa  de  desempleo  civil,  %. 

Fuente:  Economic  Report  of  the  President ,  2001,  tabla  B-49,  p.  332. 


17.31.  En  una  prueba  de  causalidad  de  Granger,  Christopher  Sims  explota  el  hecho  de  que  el 
futuro  no  puede  causar  el  presente.*  Para  decidir  si  una  variable  Y causa  una  variable  X, 
Sims  propone  estimar  el  siguiente  par  de  ecuaciones: 


i=n  i=m  i=p 

Yt  =  ai  +  fit  Xt—i  +  Yi  Yt-i  +  kiXf+j  +  u\t  (1 ) 

1=1  i=l  i= 1 

i=n  i=m  i=p 

Xt  —  ot2  +  8jXt-i  +  0)iYl+i  +  ll2t  (2) 

i=i  i=i  i=i 

Estas  regresiones  incluyen  valores  rezagados,  actuales  y  futures,  o  adelantados,  de  las 
regresoras;  los  terminos  como  Xt+\,  Xl+2,  se  Hainan  terminos  adelantados. 

Si  Y  es  causa  segiin  Granger  de  X,  debe  haber  alguna  relation  entre  Y  y  los  valores 
adelantados,  o  futures,  de  X.  Por  tanto,  en  lugar  de  probar  que  E/1,  =  0,  debemos  probar 
que  E Xj  —  0  en  la  ecuacion  (1).  Si  rechazamos  esta  hipotesis,  la  causalidad  va  de  Y  a  X, 
y  no  de  X  a  Y,  porque  el  futuro  no  puede  causar  el  presente.  Los  mismos  comentarios 
aplican  a  la  ecuacion  (2). 


C.A.  Sims,  "Money,  Income,  and  Causality",  American  Economic  Review,  vol.  62,  1972,  pp.  540-552. 
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TABLA  17.13 

Invbr 

Ano 

CP 

IDP 

PNB 

TIL 

Datos  macroeconomicos 

de  la  economla  griega, 

1960 

107  808 

1 1  7  1  79 

29  121 

145  458 

8 

1960-1995 

1961 

115 147 

127  599 

31  476 

161  802 

8 

1962 

120  050 

135  007 

34  128 

164  674 

8 

Fuente:  H.  R.  Seddighi,  K.  A. 

1963 

126  115 

142 128 

35  996 

181  534 

8.25 

Lawler  y  A.  V  Katos,  Econome¬ 

1964 

137 192 

159  649 

43  445 

196  586 

9 

trics:  A  Practical  Approach, 
Routledge,  Londres,  2000,  p.  158. 

1965 

147  707 

1  72  756 

49  003 

214  922 

9 

1966 

157  687 

182  366 

50  567 

228  040 

9 

1967 

167  528 

195  611 

49  770 

240  791 

9 

1968 

1  79  025 

204  470 

60  397 

257  226 

8.75 

1969 

190  089 

222  638 

71  653 

282  168 

8 

1970 

206  813 

246  819 

70  663 

304  420 

8 

1971 

217212 

269  249 

80  558 

327  723 

8 

1972 

232  312 

297  266 

92  977 

356  886 

8 

1973 

250  057 

335  522 

100  093 

383  916 

9 

1974 

251  650 

310  231 

74  500 

369  325 

11.83 

1975 

266  884 

327  521 

74  660 

390  000 

11.88 

1976 

281  066 

350  427 

79  750 

415  491 

11.5 

1977 

293  928 

366  730 

85  950 

431  164 

12 

1978 

310  640 

390  189 

91  100 

458  675 

13.46 

1979 

318  817 

406  857 

99  121 

476  048 

16.71 

1980 

319  341 

401  942 

92  705 

485  108 

21.25 

1981 

325  851 

419  669 

85  750 

484  259 

21.33 

1982 

338  507 

421  716 

84  100 

483  879 

20.5 

1983 

339  425 

417  930 

83  000 

481  198 

20.5 

1984 

345  1 94 

434  696 

78  300 

490  881 

20.5 

1985 

358  671 

456  576 

82  360 

502  258 

20.5 

1986 

361  026 

439  654 

77  234 

507 199 

20.5 

1987 

365  473 

438  454 

73  315 

505  713 

21.82 

1988 

378  488 

476  345 

79  831 

529  460 

22.89 

1989 

394  942 

492  334 

87  873 

546  572 

23.26 

1990 

403  1 94 

495  939 

96  139 

546  982 

27.62 

1991 

412  458 

513 173 

91  726 

566  586 

29.45 

1992 

420  028 

502  520 

93  140 

568  582 

28.71 

1993 

420  585 

523  066 

91  292 

569  724 

28.56 

1994 

426  893 

520  728 

93  073 

579  846 

27.44 

1995 

433  723 

518  407 

98  470 

588  691 

23.05 

Nota:  Todos  los  datos  nominales  se  expresan  a  precios  constantes  de  mercado  del  ano  1970  en  millones  de  dracmas.  El  ingreso  disponi- 
ble  privado  se  deflaciona  por  el  deflactor  de  precios  al  consumidor. 


Para  realizar  la  prueba  de  Sims,  estimamos  la  ecuacion  (1)  sin  los  terminos  adelan- 
tados  ( regresion  restringida)  y  despues  estimamos  la  ecuacion  (1)  con  los  terminos  ade- 
lantados  (regresion  no  restringida).  Enseguida  realizamos  la  prueba  F  como  se  indica  en 
la  ecuacion  (8.7.1).  Si  el  estadistico  F  es  significativo  (por  ejemplo,  en  el  nivel  de  5%), 
concluimos  que  es  Y  la  que  causa,  segun  Granger,  X.  Los  mismos  comentarios  aplican  a 
la  ecuacion  (2). 

^Que  prueba  elegimos,  la  de  Granger  o  la  de  Sims?  Podemos  aplicar  ambas.*  El  factor 
favorable  de  la  prueba  de  Granger  es  que  necesita  menos  grados  de  libertad  porque  no  usa 


*  La  eleccion  entre  las  pruebas  de  causalidad  de  Granger  y  Sims  no  es  clara.  Para  un  analisis  mas  detallado 
de  estas  pruebas,  vease  G.  Chamberlain,  "The  General  Equivalence  of  Granger  and  Sims  Causality",  Econo- 
metrica,  vol.  50,  1 982,  pp.  569-582. 
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los  terminos  adelantados.  Si  la  muestra  no  es  lo  bastante  grande,  habra  que  tener  cuidado 
al  usar  la  prueba  de  Sims. 

Consulte  los  datos  del  ejercicio  12.34.  Para  efectos  pedagogicos,  aplique  la  prueba  de 
causalidad  de  Sims  para  determinar  si  las  ventas  causan  el  gasto  en  planta  o  viceversa. 
Use  los  datos  de  los  ultimos  cuatro  anos  como  terminos  adelantados  del  analisis. 

17.32  La  tabla  17.13  presenta  algunos  datos  macroeconomicos  de  la  economia  griega  de  1960 
a  1995. 

Considere  la  siguiente  funcion  de  consumo: 

In  CP,*  =  ySj  +  ft  InIDP,  +  ft  TIL,  +  u, 

donde  CP*  =  gasto  de  consumo  privado  deseado  real  en  el  tiempo  t;  1DP,  =  ingreso  dis- 
ponible  privado  en  el  tiempo  t;  TIL,  =  tasa  de  interes  de  largo  plazo  en  el  tiempo  t;  y  In 
representa  el  logaritmo  natural. 

a )  Con  base  en  los  datos  de  la  tabla  17.13,  estime  la  funcion  de  consumo  anterior  e  indi- 
que  claramente  como  midio  el  gasto  de  consumo  privado  deseado  real. 

b)  iQue  problemas  econometricos  se  presentaron  al  estimar  la  funcion  de  consumo  an¬ 
terior?  ft? 6 mo  los  resolvio?  Proporcione  una  explicacion  detallada. 

17.33  Con  los  datos  de  la  tabla  17.13  formule  un  modelo  adecuado  para  explicar  el  compor- 
tamiento  de  la  inversion  real  bruta  en  la  economia  griega  de  1960  a  1995.  Busque  en 
cualquier  libro  de  macroeconomia  el  modelo  acelerador  de  inversion. 


Apendice  1  7  A 


17A.1  Prueba  de  Sargan  para  la  validez 
de  los  instrumentos 


Suponga  que  utilizamos  una  o  varias  variables  instrumentales  para  sustituir  variables  explicativas  correla- 
cionadas  con  el  termino  de  error.  <ftue  validez  tiene(n)  la(s)  variable(s)  instrumental(es)?,  es  decir,  ^como 
sabe  que  los  instrumentos  elegidos  son  independientes  del  termino  de  error?  Sargan  desarrollo  un  estadls- 
tico,  llamado  SARG,  para  probar  la  validez  de  los  instrumentos  utilizados  en  variables  instrumentales  (VI).* 
El  proceso  SARG  consiste  en  los  siguientes  pasosd 

1 .  Divida  en  dos  grupos  las  variables  incluidas  en  una  ecuacion  de  regresion:  las  independientes  del  ter¬ 
mino  de  error  (por  ejemplo,  ft,  ft,  .  .  .  ,  ft),  y  las  no  independientes  del  termino  de  error  (es  decir,  Z\, 
Z2,  .  .  . ,  Zq). 

2.  Sean  W\,  W2,  .  .  . ,  Ws  los  instrumentos  elegidos  para  las  variables  Zen  1,  donde  s  >  q. 

3.  Calcule  la  regresion  original,  sustituyendo  las  Z  por  las  W;  es  decir,  estime  la  regresion  original  mediante 
la(s)  VI  y  obtenga  los  residuos,  por  ejemplo  u. 

4.  Haga  la  regresion  de  u  sobre  una  constante,  todas  las  variables  X  y  sobre  las  variables  W,  pero  excluya 
todas  las  variables  Z.  Obtenga  R2  de  esta  regresion. 

5.  Ahora  calcule  el  estadistico  SARG,  definido  como: 

SARG  =  (n  —  k)R2  ~  xf~q  (17A.1.1) 


*J.D.  Sargan,  "Wages  and  Prices  in  the  United  Kingdom:  A  Study  in  Econometric  Methodology",  en  P.E. 
Hart,  G.  Mills  y  J.K.  Whitaker  (eds.),  Econometric  Analysis  for  National  Economic  Planning,  Butterworths,  Lon- 
dres,  1964. 

t  El  siguiente  analisis  se  basa  en  H.R.  Seddighi,  K.A.  Lawler  y  A.V.  Katos,  Econometrics:  A  Practical  Approach, 
Routledge,  Nueva  York,  2000,  pp.  155-156. 
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donde  n  =  numero  de  observaciones  y  k  =  numero  de  coeficientes  en  la  ecuacion  de  regresion  original. 
Segun  la  hipotesis  nula  de  que  los  instrumentos  son  exogenos,  Sargan  demostro  que  la  prueba  SARG 
asintoticamente  sigue  la  distribucion  x2  con  (s  —  q)  grados  de  libertad,  donde  s  es  el  numero  de  instru- 
mentos  (es  decir,  las  variables  en  W)  y  q  es  el  numero  de  regresoras  en  la  ecuacion  original.  Si  el  valor 
calculado  de  ji  cuadrada  en  una  aplicacion  es  significative  estadlsticamente,  rechazamos  la  validez  de 
los  instrumentos.  Si  no  es  significative  estadlsticamente,  aceptamos  como  valido  el  instrumento  elegido. 
Debe  subrayarse  que  s  >  q,  e s  decir,  el  numero  de  instrumentos  debe  ser  mayor  que  q.  Si  no  es  as!  (es 
decir,  s  <  q),  la  prueba  SARG  no  es  valida. 

6.  La  hipotesis  nula  es  que  todos  los  instrumentos  (W)  son  validos.  Si  la  ji  cuadrada  calculada  excede  el 
valor  ji  cuadrada  crltico,  rechazamos  la  hipotesis  nula,  lo  cual  significa  que  al  rnenos  un  instrumento  esta 
correlacionado  con  el  termino  de  error  y,  por  tanto,  las  estimaciones  de  la(s)  VI  con  base  en  los  instru¬ 
mentos  elegidos  no  son  validas. 


Modelos  de 
ecuaciones 
simultaneas  y 
econometria  de 
series  de  tiempo 


Una  mirada  informal  al  trabajo  empirico  publicado  en  administracion  de  empresas  y  en  economia 
revelara  que  muchas  relaciones  economicas  son  de  tipo  uniecuacional.  Por  esta  razon  dedicamos 
las  tres  primeras  partes  de  este  libro  a  modelos  de  regresion  uniecuacionales.  En  tales  modelos, 
una  variable  (la  variable  dependiente  Y )  se  expresa  como  funcion  lineal  de  una  o  mas  variables 
(las  variables  explicativas,  las  X).  En  tales  modelos,  un  supuesto  impllcito  es  que  la  relacion 
causa-efecto,  de  existir,  entre  Yy  Yes  unidireccional:  las  variables  explicativas  son  la  causa  y  la 
variable  dependiente  es  el  efecto. 

Sin  embargo,  hay  situaciones  en  las  cuales  existe  una  influencia  bidireccional  entre  las  varia¬ 
bles  economicas;  es  decir,  una  variable  economica  afecta  otra(s)  variable(s)  economical  s)  y,  a  su 
vez,  se  ve  afectada  por  ella(s).  Asi,  en  la  regresion  del  dinero  M  sobre  la  tasa  de  interes  r,  la  me- 
todologia  uniecuacional  supone  implicitamente  que  la  tasa  de  interes  es  fija  (por  ejemplo,  por  el 
Sistema  de  la  Reserva  Federal)  y  trata  de  encontrar  la  respuesta  del  dinero  demandado  a  cambios 
en  el  nivel  de  la  tasa  de  interes.  Pero,  (',que  sucede  si  la  tasa  de  interes  depende  de  la  demanda  de 
dinero?  En  este  caso,  el  analisis  de  regresion  condicional  en  este  libro,  hasta  el  momento,  quiza 
no  sea  apropiado  porque  ahora  M  depende  Aery  r  depende  de  M.  Por  tanto,  es  preciso  conside- 
rar  dos  ecuaciones,  una  que  relaciona  M  con  r  y  otra  que  relaciona  r  con  M.  Y  esto  conduce  a  la 
consideration  de  los  modelos  de  ecuaciones  simultaneas,  modelos  en  los  cuales  hay  mas  de  una 
ecuacion  de  regresion,  una  por  cada  variable  interdependiente. 

En  la  parte  4  presentamos  una  introduction  muy  elemental  y  casi  heuristica  al  complejo  tema 
de  modelos  de  ecuaciones  simultaneas,  y  dejamos  los  detalles  para  las  referencias. 

En  el  capitulo  18  ofrecemos  diversos  ejemplos  de  modelos  de  ecuaciones  simultaneas  y  vere- 
mos  por  que  el  metodo  de  minimos  cuadrados  ordinarios,  considerado  antes,  es  inaplicable  para 
estimar  los  parametros  de  cada  ecuacion  del  modelo. 

En  el  capitulo  19  consideraremos  el  problema  de  identificacion.  Si  en  un  sistema  de  ecua¬ 
ciones  simultaneas  con  dos  o  mas  ecuaciones  no  es  posible  obtener  valores  numericos  de  cada 
parametro  en  cada  ecuacion  porque  las  ecuaciones  son  observacionalmente  no  distinguibles,  o 
se  parecen  mucho  entre  si,  tenemos  el  problema  de  identificacion.  Asi,  en  la  regresion  de  la 
cantidad  Q  sobre  el  precio  P,  <(es  la  ecuacion  resultante  una  funcion  de  demanda  o  una  funcion 
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de  oferta,  pues  Q  y  P  forman  parte  de  las  dos  funciones?  Por  consiguiente,  si  solo  tenemos 
informacion  sobre  (Q  y  P,  y  no  hay  otra  informacion,  sera  dificil,  si  no  imposible,  identificar  la 
regresion  como  funcion  de  demanda  o  funcion  de  oferta.  Es  indispensable  resolver  el  problema 
de  identificacion  antes  de  proceder  a  la  estimacion,  pues  no  saber  lo  que  se  estima  hace  que 
la  estimacion  misma  carezca  de  sentido.  En  el  capitulo  19  se  ofrecen  diversos  metodos  para  re¬ 
solver  el  problema  de  la  identificacion. 

En  el  capitulo  20  consideraremos  diversos  metodos  de  estimacion  disenados  especificamente 
para  estimar  los  modelos  de  ecuaciones  simultaneas,  asi  como  sus  cualidades  y  limitaciones. 


Capitulo 


Modelos  de  ecuaciones 
simultaneas 


En  este  capitulo  y  en  los  dos  siguientes  analizaremos  los  modelos  de  ecuaciones  simultaneas. 
En  particular,  observaremos  sus  caracteristicas  especiales,  su  estimacion  y  algunos  problemas 
estadisticos  relacionados  con  ellos. 


18.1  Naturaleza  de  los  modelos  de  ecuaciones 
simultaneas 


En  las  partes  1  a  3  de  este  texto  tratamos  exclusivamente  con  modelos  uniecuacionales,  es  decir, 
modelos  en  los  cuales  habia  una  sola  variable  dependiente  Y  y  una  o  mas  variables  explicativas, 
las  X.  En  tales  modelos  nos  centramos  en  la  estimacion  y/o  la  prediction  del  valor  medio  de  Y 
condicional  a  los  valores  fijos  de  las  variables  X.  Por  consiguiente,  la  relacion  causa-efecto  en 
esos  modelos  iba  de  las  Xa  Y. 

Pero  en  muchas  situaciones  la  relacion  causa-efecto  en  un  sentido,  o  unidireccional,  no  es  rele- 
vante.  Esto  sucede  cuando  Y esta  determinada  por  las  X y  algunas  X,  a  su  vez,  estan  determinadas 
por  Y.  En  otras  palabras,  hay  una  relacion  en  dos  sentidos,  o  simultanea,  entre  Y  y  (algunas)  X, 
que  hace  dudar  del  valor  de  la  distincion  entre  variables  dependientes  y  explicativas.  Es  mejor 
reunir  un  conjunto  de  variables  que  se  determinen  simultaneamente  mediante  el  conjunto  restante 
de  variables:  justo  lo  que  se  hace  en  los  modelos  de  ecuaciones  simultaneas.  En  tales  modelos 
hay  mas  de  una  ecuacion:  una  para  cada  una  de  las  variables  mutuamente,  o  conjuntamente, 
dependientes  o  endogenas.1  Y,  a  diferencia  de  los  modelos  uniecuacionales,  en  los  modelos  de 
ecuaciones  simultaneas  no  es  posible  estimar  los  parametros  de  una  ecuacion  aisladamente  sin 
tener  en  cuenta  la  information  proporcionada  por  las  demas  ecuaciones  en  el  sistema. 

(',Que  sucede  si  los  parametros  de  cada  ecuacion  se  estiman,  por  ejemplo,  mediante  el  metodo 
de  MCO,  sin  considerar  las  demas  ecuaciones  del  sistema?  Recuerde  que  un  supuesto  crucial 
del  metodo  de  MCO  es  que  las  variables  explicativas  X  son  no  estocasticas  o,  si  lo  son  (aleato- 
rias),  estan  distribuidas  independientemente  del  termino  de  perturbation  estocastico.  Si  ninguna 
de  estas  condiciones  se  cumple,  entonces,  como  veremos  mas  adelante,  los  estimadores  de  mi- 
nimos  cuadrados  no  solo  son  sesgados,  sino  tambien  inconsistentes;  es  decir,  a  medida  que  el 


1  En  el  contexto  de  los  modelos  de  ecuaciones  simultaneas,  las  variables  conjuntamente  dependientes  se  de- 
nominan  variables  endogenas,  y  las  variables  realmente  no  estocasticas  o  que  pueden  considerarse  como 
tales,  variables  exogenas  o  predeterminadas.  (Veremos  mas  al  respecto  en  el  capitulo  1 9.) 
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tamano  de  la  muestra  aumenta  indefinidamente,  los  estimadores  no  convergen  hacia  sus  verdade- 
ros  valores  (poblacionales).  Asi,  en  el  siguiente  sistema  hipotetico  de  ecuaciones,2 

Y\  i  —  Pio  +  PnYn  +  Y\\X\i  +  uu  (18.1 .1) 

Y2i  —  P20  +  fh\Y\i  +  Y2\X\,  +  u.2i  (18.1.2) 

donde  Y\  y  Y2  son  variables  mutuamente  dependientes,  o  endogenas,  X\,  una  variable  exogena, 
y  Mi  y  112,  los  terminos  de  perturbacion  estocastica,  ambas  variables  Y\  y  Y2  son  estocasticas.  Por 
consiguiente,  a  menos  que  se  demuestre  que  la  variable  explicativa  estocastica  Y2  en  ( 1 8 . 1 . 1 )  esta 
distribuida  independientemente  de  Mi  y  que  la  variable  explicativa  estocastica  Y\  en  (18.1.2) 
esta  distribuida  independientemente  de  112,  la  aplicacion  de  MCO  clasicos  a  estas  ecuaciones 
generara  estimaciones  inconsistentes. 

En  lo  que  resta  de  este  capitulo  daremos  ejemplos  de  modelos  de  ecuaciones  simultaneas  y 
mostraremos  el  sesgo  en  la  aplicacion  directa  del  metodo  de  minimos  cuadrados  a  tales  modelos. 
Despues  de  analizar  el  denominado  problema  de  identification  en  el  capitulo  19,  en  el  20  estudia- 
remos  algunos  metodos  especiales  para  manejar  los  modelos  de  ecuaciones  simultaneas. 


18.2  Ejemplos  de  modelos  de  ecuaciones  simultaneas 


EJEMPLO  18.1  Como  es  bien  sabido,  el  precio  P  de  un  bien  y  la  cantidad  vendida  Q  estan  determinados  por  el 

Modelo  de  demanda  intercepto  de  las  curvas  de  demanda  y  oferta  para  ese  bien.  Asl,  si  suponemos,  por  simplicidad, 

,.  que  las  curvas  de  demanda  y  oferta  son  lineales  y  sumamos  los  terminos  de  perturbacion  esto- 

3  ojei  a  casticos  tq  y  U2,  las  funciones  empmcas  de  demanda  y  oferta  se  escriben  como 

Funcion  de  demanda:  Qd  =  ao  +  on  Pt  +  u it  ag  <  0  (18.2.1) 

Funcion  de  oferta:  Qst  =  /So  +  di  Pt  +  U2t  Pi  >  0  (18.2.2) 

Condicion  de  equilibria:  Q(  =  Qf 

donde  Qd  =  cantidad  demandada 
Qs  =  cantidad  ofrecida 
t  =  tiempo 

y  las  a  y  ft  son  los  parametros.  A  priori,  se  espera  que  op  sea  negativa  (curva  de  demanda  con 
pendiente  hacia  abajo)  y  que  /b  sea  positiva  (curva  de  oferta  con  pendiente  hacia  arriba). 

Ahora  bien,  no  es  muy  diffcil  ver  que  Py  Q  son  variables  conjuntamente  dependientes.  Si,  por 
ejemplo,  uu  en  (1 8.2.1 )  se  modifica  debido  a  cambios  en  otras  variables  que  afectan  a  Qd  (como 
ingreso,  riqueza  y  gustos),  la  curva  de  demanda  se  desplaza  hacia  arriba  si  Uu  es  positiva  y  hacia 
abajo  si  u-\t  es  negativa.  Estos  desplazamientos  se  muestran  en  la  figura  1 8.1 . 

Como  muestra  la  figura,  un  desplazamiento  en  la  curva  de  demanda  cambia  a  P  y  a  Q. 
En  forma  similar,  un  cambio  en  U2t  (huelgas,  clima,  restricciones  sobre  las  importaciones  o  las 
exportaciones,  etc.)  desplazara  la  curva  de  oferta,  para  afectar  de  nuevo  a  P  y  a  Q.  Debido  a 
esta  dependencia  simultanea  entre  Q  y  P,  Muy  Pten  (1 8.2.1  )y  \J2ty  Pten  (18.2.2)  no  pueden 
ser  independientes.  Por  consiguiente,  una  regresion  de  Q  sobre  P  como  en  (18.2.1)  violarfa  un 
supuesto  importante  del  modelo  clasico  de  regresion  lineal,  a  saber,  el  de  no  correlacion  entre 
la(s)  variable(s)  explicativa(s)  y  el  termino  de  perturbacion. 


2  Esta  notacion  economica,  aunque  se  explica  por  sf  misma,  se  generalizara  a  mas  de  dos  ecuaciones  en  el 
capitulo  1 9. 
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EJEMPLO  18.1 

(i continuation ) 


F IG U  RA  18.1  Interdependence  entre  precio  y  cantidad. 


Cantidad 


P 


Cantidad 


EJEMPLO  18.2 

Modelo  keynesiano 
de  determination 
del  ingreso 


Considere  el  modelo  keynesiano  simple  de  determinacion  del  ingreso: 

Funcion  consume >:  Ct  =  ySo  +  /Si  Yt  +  ut  0  <  /Si  <1 

Identidad  del  ingreso:  Yt  =  Ct  +  /t  ( =  5 1) 

donde  C  =  gasto  de  consumo 
Y  =  ingreso 

/  =  inversion  (se  supone  exogena) 

5  =  ahorro 
t  =  tiempo 

u  =  termino  de  perturbacion  estocastico 
/So  y  /Si  =  parametros 


(18.2.3) 

(18.2.4) 


El  parametro  f)-\  se  conoce  como  propension  marginal  a  consumir  (PMC)  (la  cantidad  de  gasto 
de  consumo  extra  resultante  de  un  dolar  extra  de  ingreso).  Conforme  a  la  teorfa  economica,  se 
espera  que  se  encuentre  entre  0  y  1 .  La  ecuacion  (1 8.2.3)  es  la  funcion  consumo  (estocastica); 
y  (1 8.2.4)  es  la  identidad  del  ingreso  nacional,  que  significa  que  el  ingreso  total  es  igual  al  gasto 

( continua ) 
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EJEMPLO  18.2 

(i continuation ) 


de  consumo  total  mas  el  gasto  de  inversion  total,  en  el  entendido  de  que  el  gasto  de  inversion 
total  es  igual  al  ahorro  total.  En  la  figura  18.2  se  muestra  la  grafica. 

De  la  funcion  consumo  postulada  y  de  la  figura  1 8.2,  es  claro  que  Cy  /son  interdependientes 
y  que  no  se  espera  que  Yt  en  (18.2.3)  sea  independiente  del  termino  de  perturbacion,  porque 
cuando  ut  se  desplaza  (debido  a  diversos  factores  dentro  del  termino  de  error),  la  funcion  con¬ 
sumo  tambien  se  desplaza,  la  cual  a  su  vez  afecta  a  V).  Por  consiguiente,  una  vez  mas,  el  metodo 
clasico  de  mfnimos  cuadrados  no  es  aplicable  a  (1 8.2.3).  De  aplicarse,  los  estimadores  obtenidos 
de  dicho  metodo  seran  inconsistentes,  como  veremos  mas  adelante. 


FIGURA  18.2 

Modelo  keynesiano 
de  determinacion  del 
ingreso. 


EJEMPLO  18.3 

Modelos  de  salario- 
precio 


Considere  el  siguiente  modelo  tipo  Phillips  de  determinacion  de  salarios  monetariosy  precios: 

=  ao  +  ai  UNt  +  Q!2  Pt  +  Wit  (18.2.5) 

P  t  —  A)  +  /h  Yi/t  +  /32Rt  +  PiMt  +  U2t  (18.2.6) 


donde  W 
UN 
P 
R 
M 
t 

ui,  u2 


tasa  de  cambio  de  los  salarios  monetarios 

tasa  de  desempleo,  % 

tasa  de  cambio  de  los  precios 

tasa  de  cambio  del  costo  de  capital 

tasa  de  cambio  del  precio  de  las  materias  primas  importadas 
tiempo 

perturbaciones  estocasticas 


Como  la  variable  precio  P  entra  en  la  ecuacion  de  salarios  y  la  variable  salarios  W  entra  en 
la  ecuacion  de  precios,  las  dos  variables  son  conjuntamente  dependientes.  Por  consiguiente, 
se  espera  que  estas  variables  explicativas  estocasticas  esten  correlacionadas  con  las  perturbacio¬ 
nes  estocasticas  pertinentes,  por  lo  que,  una  vez  mas,  el  metodo  clasico  de  MCO  no  es  inaplica- 
ble  para  estimar  individualmente  los  parametros  de  las  dos  ecuaciones. 
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EJEMPLO  18.4 

El  conocido  modelo  IS,  o  de  equilibrio  en  el  mercado  de  bienes,  de  la 

macroeconomia3  en  su 

El  modelo  IS  de 

forma  no  estocastica  se  expresa  como 

macroeconomia 

Funcion  consumo: 

Gt  =  /So  +  /Si  Ydt 

0  <  /Si  <  1 

(18.2.7) 

Funcion  de  impuestos: 

It  =ot0+cr\Yt 

0  <  <1 

(18.2.8) 

Funcion  de  inversion: 

lt  =  Yo  +  YiG 

(18.2.9) 

Definicion: 

1 

II 

(18.2.10) 

Gasto  del  gobierno: 

Gt  =  G 

(18.2.11) 

Identidad  del  ingreso  nacional: 

Yt  =  Ct+lt  +  Gt 

(18.2.12) 

donde  Y  =  ingreso  nacional 
C  =  gasto  de  consumo 
/  =  inversion  neta  planeada  o  deseada 
C  =  nivel  dado  de  gasto  del  gobierno 
T  =  impuestos 
Yd  =  ingreso  disponible 
r  =  tasa  de  interes 


Si  sustituye  (1 8.2.1 0)  y  (1 8.2.8)  en  (1 8.2.7)  y  tambien  la  ecuacion  resultante  por  C,  asf  como 
las  ecuaciones  (1 8.2.9)  y  (1 8.2.1 1 )  en  (1 8.2.1 2),  debe  obtener  la  ecuacion  IS: 


Yt  =  n0  +  n-\  rt 


(18.2.13) 


donde 


7TQ 


/So  —  uoP:  +  yo  +  C 
1  -/5t(1  -on) 


7T1 


1 

1-^(1  _ai) 


(18.2.14) 


La  ecuacion  (18.2.13)  es  la  ecuacion  de  IS,  o  de  equilibrio  en  el  mercado  de  bienes,  es  decir, 
da  las  combinaciones  de  tasa  de  interes  y  de  nivel  de  ingreso  de  modo  que  el  mercado  de  bienes 
se  despeja  o  esta  en  equilibrio.  Geometricamente,  la  curva  IS  se  muestra  en  la  figura  18.3. 


FIGURA  18.3 

Curva  IS. 


r 


( continue l) 


3  "El  esquema  de  equilibrio  en  el  mercado  de  bienes,  o  esquema  IS,  muestra  combinaciones  de  tasas  de  inte¬ 
res  y  de  niveles  de  producto  tales  que  el  gasto  planeado  iguala  al  ingreso."  Vease  Rudiger  Dornbusch  y  Stan¬ 
ley  Fischer,  Macroeconomics,  3a.  ed.,  McGraw-Hill,  Nueva  York,  1984,  p.  102.  Observe  que,  por  simplicidad, 
supusimos  que  no  existe  el  sector  de  comercio  exterior. 
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EJEMPLO  18.4  ,;Que  sucederfa  si  estimamos,  por  ejemplo,  la  funcion  consumo  (18.2.7)  en  forma  aislada? 

(i continuation )  ^Obtendrfamos  estimaciones  insesgadas  y/o  consistentes  de  /?o  y  /Si?  Tal  resultado  no  es  pro¬ 

bable,  pues  el  consumo  depende  del  ingreso  disponible,  el  cual  depende  del  ingreso  nacional 
Y,  que  a  su  vez  depende  de  ry  G,  como  tambien  de  otros  parametros  que  entran  en  tcq.  Por 
consiguiente,  a  menos  que  consideremos  todas  estas  influencias,  es  probable  que  una  simple 
regresion  de  C sobre  Yd  produzca  estimaciones  sesgadas  y/o  inconsistentes  de  /So  y  fa. 


EJEMPLO  18.5 

Modelo  LM 


La  otra  mitad  del  famoso  paradigma  IS-LM  es  el  LM,  o  relacion  de  equilibrio  en  el  mercado  mo- 
netario,  que  da  las  combinaciones  de  tasa  de  interes  y  nivel  de  ingreso  de  modo  que  se  despeje 
el  mercado  monetario,  es  decir,  que  la  demanda  de  dinero  sea  igual  a  su  oferta.  Algebraica- 
mente,  el  modelo,  en  la  forma  no  estocastica,  se  expresa  como: 

Funcion  de  demanda  de  dineron:  Mf  =  a+  bYt  —  crt  (18.2.1 5) 

Funcion  de  oferta  de  dinero:  M ts  =  M  (18.2.16) 

Condicion  de  equilibrio:  Mf  =  Mst  (18.2.17) 

donde  Y  —  ingreso,  r=  tasa  de  interes  y  M  =  nivel  supuesto  de  oferta  monetaria,  por  ejemplo, 

el  determinado  por  el  Banco  de  la  Reserva  Federal. 

Al  igualar  las  funciones  de  demanda  y  oferta  de  dinero,  y  simplificar,  obtenemos  la  ecuacion 
LM: 


Yf  =  Ao  -p  A]  M  -p  7.2 r f  (1 8.2. 1 8) 

donde 

A0  =  -a/b 

Ai=1  /b  (18.2.19) 

A2  =  c/b 

Para  un  M  =  M  dado,  la  curva  LM  que  representa  la  relacion  (18.2.18)  es  como  se  muestra 
en  la  figura  1 8.4. 

Las  curvas  IS  y  LM  muestran  que  un  ordenamiento  completo  de  tasas  de  interes  es  consis- 
tente  con  el  equilibrio  en  el  mercado  de  bienes,  y  un  ordenamiento  completo  de  tasas  de  interes 
es  compatible  con  el  equilibrio  en  el  mercado  monetario.  Desde  luego,  solo  una  tasa  de  interes  y 
un  nivel  de  ingreso  seran  consistentes  al  mismo  tiempo  con  los  dos  equilibrios.  Para  obtenerlos, 
solo  se  necesita  igualar  (1 8.2.1  3)  y  (1 8.2.1 8).  En  el  ejercicio  1 8.4  se  le  pide  mostrar  el  nivel  de 
la  tasa  de  interes  y  del  ingreso  simultaneamente  compatible  con  el  equilibrio  en  los  mercados 
de  bienes  y  de  dinero. 


FIGURA  18.4 

Curva  LM. 


r 
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EJEMPLO  18.6 

Modelos  econome- 
tricos 


Los  modelos  de  ecuaciones  simultaneas  son  muy  comunes  para  elaborar  modelos  econome- 
tricos  a  cargo  de  diversos  econometristas.  Un  pionero  en  este  campo  fue  el  profesor  Lawrence 
Klein,  de  la  Wharton  School,  Universidad  de  Pensilvania.  Su  modelo  inicial,  conocido  como 
modelo  1  de  Klein,  es  el  siguiente: 


Funcion  consumo:  Ct  =  p0  +  Pt  Pt  +  /62(  W  +  W')t  +  Pi  Pt-t  +  iq  t 

Funcion  de  inversion:  lt  =  /S4  +  Ps  Pt  +  Pe  Pt- 1  +  P7  K  t_i  +  U2t 

Demanda  de  trabajo:  Wt  =  Ps  4-  Pg(Y  +  T  —  W')t 

+  P/o(y  +  T  —  W')t- 1  +  /hi t  +  Un 
Identidad:  Yt+  Tt=  Ct  +  lt+  Ct 

Identidad:  Yt  =  W(  +  Wt  +  Pt 

Identidad:  K  t  =  K  t_i  +  It 


(18.2.20) 


donde  C 

/ 

C  = 
P  = 

w  = 

W’  = 
K  = 
T  = 
Y  = 
t  = 

ui,  u2y  u3  = 


gasto  de  consumo 
gasto  de  inversion 
gasto  del  gobierno 
utilidades 

nomina  del  sector  privado 
nomina  del  gobierno 
existencias  de  capital 
impuestos 

ingreso  despues  de  impuestos 
tiempo 

perturbaciones  estocasticas4 


En  el  modelo  anterior,  las  variables  C,  /,  W,  Y,  P  y  K  se  consideran  variables  conjuntamente 
dependientes  o  endogenas,  y  las  variables  Pt_ Kt_  1  y  Yt_  1,  predeterminadas.5  En  total  hay  seis 
ecuaciones  (con  las  tres  identidades)  para  estudiar  la  interdependencia  de  las  seis  variables  en¬ 
dogenas. 

En  el  capftulo  20  veremos  la  forma  de  estimar  tales  modelos  econometricos.  Por  el  momento, 
observe  que,  debido  a  la  interdependencia  entre  las  variables  endogenas,  en  general  no  son 
independientes  de  los  terminos  de  perturbacion  estocasticos,  lo  cual,  por  consiguiente,  hace 
que  no  sea  adecuada  la  aplicacion  del  metodo  de  MCO  a  una  ecuacion  individual  en  el  sistema. 
Como  se  ve  en  la  seccion  1 8.3,  los  estimadores  asf  obtenidos  son  inconsistentes;  no  convergen  a 
sus  verdaderos  valores  poblacionales  aunque  el  tarnaho  de  la  muestra  sea  muy  grande. 


18.3  Sesgo  en  las  ecuaciones  simultaneas: 

inconsistencia  de  los  estimadores  de  MCO 


Como  ya  planteamos,  el  metodo  de  mlnimos  cuadrados  no  aplica  para  estimar  una  sola  ecuacion 
enlazada  a  un  sistema  de  ecuaciones  simultaneas  si  una  o  mas  de  las  variables  explicativas  estan 
correlacionadas  con  el  termino  de  perturbacion  en  esa  ecuacion,  porque  los  estimadores  asi  obte¬ 
nidos  son  inconsistentes.  Para  mostrar  esto,  considere  de  nuevo  el  modelo  keynesiano  simple  de 


4  L.R.  Klein,  Economic  Fluctuations  in  the  United  States,  1921-1941,  John  Wiley  &  Sons,  Nueva  York,  1 950. 
s  El  constructor  de  modelos  debe  especificar  las  variables  endogenas  y  predeterminadas  del  modelo.  Kt_  1  y 
Yt-i  son  predeterminadas  porque,  en  el  tiempo  t,  sus  valores  son  conocidos.  (Veremos  mas  sobre  esto  en  el 
capftulo  1 9.) 
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determinacion  del  ingreso  del  ejemplo  18.2.  Suponga  que  deseamos  estimar  los  parametros  de  la 
funcion  consumo  (18.2.3).  Si  suponemos  que  E{ut )  =  0,  E(uj)  =  a2,  E(u,ut+j)  =  0  (para  j  ^  0  ) 
y  cov( U{)  —  0,  que  son  los  supuestos  del  MCRL,  demostramos  primero  que  Y,  y  u,  en  (18.2.3) 
estan  correlacionados  y  luego  probamos  que  P\  es  un  estimador  inconsistente  de  P\. 

Para  probar  que  Y,  y  u,  estan  correlacionados,  procedemos  de  la  siguiente  manera.  Sustituya 
(18.2.3)  en  (18.2.4)  para  obtener 

Yt  —  P o  +  Pi  Y,  +  ut  +  I, 


es  decir. 


Ahora 


Y,  = 


Po 

1  -Pi 


-It  + 


1  -Pi 


u, 


(18.3.1) 


Em = + r=br''  <183-2> 

donde  aprovechamos  que  E(ut)  =  0  y  que,  como  /,  es  exogeno  o  predeterminado  (porque  su  valor 
se  fijo  con  anterioridad),  tiene  como  valor  esperado  It. 

Por  consiguiente,  al  restar  (18.3.2)  de  (18.3.1),  resulta 


Ademas, 


de  donde 


Yt-E(Yt)  = 


ut 

1  ~Pi 


(18.3.3) 


u,  —  E(ut)  —  u,  (^.Porque?)  (18.3.4) 


cov(7,,  ut)  =  E[Y,  -  E(Y,)][ut  -  E{u,)] 

E  (u2) 

=  -Y-LL  con  (18.3.3)  y  (18.3.4)  (18.3.5) 

1  -  Pi 


Pi 

Como  a2  se  supuso  positivo  ((',por  que?),  la  covarianza  entre  Yy  u  dada  en  (18.3.5)  tiende  a  ser 
diferente  de  cero.6  Como  resultado  se  espera  que  Y,  y  u,  en  ( 1 8.2.3)  esten  correlacionadas,  lo  cual 
viola  el  supuesto  del  modelo  clasico  de  regresion  lineal  respecto  de  que  las  perturbaciones  son 
independientes  o  por  lo  menos  no  estan  correlacionadas  con  las  variables  explicativas.  Como  ya 
mencionamos,  los  estimadores  de  MCO  en  esta  situacion  son  inconsistentes. 

Para  mostrar  que  el  estimador  de  MCO  p\  es  un  estimador  inconsistente  de  P\  debido  a  la 
correlacion  entre  Y,  y  u,,  procedemos  de  la  siguiente  manera: 


Z(C,  -  C)(Yt  -  Y) 
E(  Yt  -  Y)2 

Ec‘y> 

Eyf 

Ec<yt 

Ey? 


(18.3.6) 


6  Sera  mayor  que  cero  siempre  que  fli,  la  PMC,  se  encuentre  entre  0  y  1 ;  y  sera  negativa  si  pi  es  mayor  que 
la  unidad.  Desde  luego,  un  valor  de  PMC  mayor  que  la  unidad  no  tendrfa  mucho  sentido  economico.  En 
realidad,  se  espera  que  la  covarianza  entre  Yty  ut  sea  positiva. 
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donde  las  letras  minusculas,  como  es  usual,  indican  desviaciones  de  la  media  (muestras).  A1  sus- 
tituir  por  Ct  de  (18.2.3),  obtenemos 


a 


X(A  +  P\Yt  +  u,)yt 

Erf 


=  A  + 


'Ey/11 1 

Eyf 


(18.3.7) 


donde,  en  el  ultimo  paso,  aprovechamos  que  X  yt  =  0  y  (X  Ytyt/T,y f)  =  1  (6P°r  que?). 
Si  tomamos  el  valor  esperado  de  (18.3.7)  en  ambos  lados,  obtenemos 


E(jil)  =  pl  +  E 


~Xjw~ 
.  Xl?  . 


(18.3.8) 


Por  desgracia,  no  podemos  evaluar  £(X  Xp?)  porque  el  operador  de  valor  esperado  es 
un  operador  lineal.  [Nota:  E(A/B)  A  E(A)/E(B).\  Pero,  por  intuicion,  debe  quedar  claro  que,  a 
menos  que  el  termino  (Xjw/  Xp?)  sea  cero>  A  es  un  estimador  sesgado  de  A  ■  Pero, no  de- 
mostramos  en  (18.3.5)  que  la  covarianza  entre  Y y  u  cs  diferente  de  cero  y  que,  por  consiguiente, 
j>\  no  estaria  sesgado?  La  respuesta  es  no  del  todo,  pues  cov( Yh  ut),  un  concepto  poblacional,  no 
equivale  exactamente  a  X  Ytui>  que  es  una  medicion  muestral,  aunque,  a  medida  que  el  tamano 
de  la  muestra  aumenta  indefinidamente,  el  ultimo  tendera  hacia  el  primero.  Pero  si  el  tamano  de 
la  muestra  aumenta  indefinidamente,  entonces  podemos  recurrirse  al  concepto  de  estimador  con- 
sistente  y  averiguar  que  sucede  con  A  a  medida  que  n,  el  tamano  de  la  muestra,  aumenta  inde¬ 
finidamente.  En  resumen,  cuando  no  podemos  evaluar  explicitamente  el  valor  esperado  de  un 
estimador,  como  ocurrio  en  (18.3.8),  podemos  centrar  la  atencion  hacia  su  comportamiento  en 
una  muestra  grande. 

Ahora  bien,  se  dice  que  un  estimador  es  consistente  si  el  limite  de  su  probabilidad,7  o  plim 
para  abreviar,  es  igual  a  su  verdadero  valor  (poblacional).  Por  consiguiente,  para  demostrar  que 
A  de  (18.3.7)  es  inconsistente,  debemos  demostrar  que  su  plim  no  es  igual  al  verdadero  Pi.  Al 
aplicar  las  reglas  de  limite  de  probabilidad  a  (18.3.7),  obtenemos8 


plhn(A)  =  plim ( Pi )  +  plim 

=  Plim  (A)  +  pHm  (  (18.3.9) 

\  Eyf/n  ) 

plim  (EVtUt/n) 

~Pl+  plim  (Eyf/n) 


donde,  en  el  segundo  paso,  dividimos  X  >7  ui  y  X  >’/2  entre  el  numero  total  de  observaciones  en  la 
muestra,  n,  de  manera  que  las  cantidades  en  los  parentesis  son  ahora  la  covarianza  muestral  entre 
Y y  u,  y  la  varianza  muestral  de  Y,  respectivamente. 

En  palabras,  (18.3.9)  establece  que  el  limite  de  probabilidad  de  Pi  es  igual  al  verdadero  Pi 
mas  la  razon  del  plim  de  la  covarianza  muestral  entre  Y  y  u  respecto  del  plim  de  la  varianza 
muestral  de  Y.  Ahora,  a  medida  que  el  tamano  n  de  la  muestra  aumenta  indefinidamente,  se  es- 
peraria  que  la  covarianza  muestral  entre  Yy  use  aproxime  a  la  verdadera  covarianza  poblacional 
E[Y,  —  E(Yt))[u,  —  E(u, )],  la  cual,  de  (18.3.5),  es  igual  a  [o-2/(l  —  A)]-  En  forma  similar,  a  me- 


7  En  el  apendice  A  definimos  el  limite  de  probabilidad. 

8  Como  afirmamos  en  el  apendice  A,  el  plim  de  una  constante  (por  ejemplo,  pp  es  la  constante  misma,  y 
el  plim  de  (A/ES)  =  plim(/\)/plim(B).  Observe,  sin  embargo,  que  E(A/B)  j=.  E(A)/E(B). 
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dida  que  n  tiende  a  infinito,  la  varianza  muestral  de  Y  se  aproxima  a  su  varianza  poblacional,  es 
decir,  <r2.  Por  consiguiente,  la  ecuacion  (18.3.9)  puede  escribirse  como 


plim(0i)  =  0i  + 


a2/(l-0i) 

^2 


=  01  + 


1 

1-01 


(18.3.10) 


Como  0  <  0i  <  1  y  a2,  y  cr2  son  positivas,  es  obvio,  de  la  ecuacion  (18.3.10),  que  plim 
(0i)  sera  siempre  mayor  que  0i;  es  decir,  0i  sobreestimara  al  verdadero  0i.9  En  otras  palabras,  0i 
es  un  estimador  sesgado,  y  no  importa  lo  grande  del  tamano  de  la  muestra,  el  sesgo  no  desapa- 
recera. 


18.4  Sesgo  de  las  ecuaciones  simultaneas:  ejemplo  munerico 


Para  demostrar  algunos  puntos  planteados  en  la  seccion  anterior,  considere  de  nuevo  el  modelo 
keynesiano  simple  de  determinacion  del  ingreso  dado  en  el  ejemplo  18.2  y  efectue  el  siguiente 
estudio  de  Monte  Carlo.10  Suponga  que  los  valores  de  la  inversion  I  son  como  se  muestran  en  la 
columna  (3)  de  la  tabla  18.1,  y  ademas  que 

E(u, )  —  0 

E(utut+j)=  0  (,/  /  0) 

var  (ut)  —  a2  —  0.04 
co v(n,,  It)  —  0 


Los  u,  asi  generados  se  muestran  en  la  columna  (4). 

Para  la  funcion  consumo  (18.2.3)  suponga  que  se  conocen  los  valores  de  los  verdaderos  para- 
metros  y  son  0O  =  2  y  0i  =  0.8. 

De  los  valores  supuestos  de  0o  y  0i  y  de  los  valores  generados  de  u,  podemos  generar  los  va¬ 
lores  del  ingreso  Y,  de  (18.3.1),  los  cuales  se  muestran  en  la  columna  (1)  de  la  tabla  18.1.  Una  vez 
conocidos  los  Y,  y  al  conocer  0o,  0i  y  ut,  podemos  generar  facilmente  los  valores  de  consumo  C, 
de  (18.2.3).  Los  C  asi  generados  estan  en  la  columna  2. 

Como  se  conocen  los  verdaderos  0o  y  0i  y  los  errores  muestrales  son  exactamente  los  mismos 
que  los  “verdaderos”  (debido  a  la  forma  en  que  se  diseno  el  estudio  Monte  Carlo),  si  utilizamos 
la  informacion  de  la  tabla  18.1  para  hacer  la  regresion  de  C,  sobre  Y,,  debemos  obtener  0O  =  2  y 
0i  =  0.8,  si  los  MCO  fueran  insesgados.  Pero,  de  (18.3.7),  sabemos  que  este  no  sera  el  caso  si 
la  regresora  Y,  y  la  perturbacion  u,  estan  correlacionadas.  Ahora  no  es  muy  dificil  verificar,  de  la 
informacion  disponible,  que  la  covarianza  (muestral)  entre  Y,  y  u,  es  ^  ytut,  —  3.8  y  que  y2  = 
184.  Entonces,  como  indica  (18.3.7),  debemos  tener 


0i  =  0i  + 


T,y>ut 

Zy? 


3.8 

=  0.8+ - 

184 

=  0.82065 


(18.4.1) 


Es  decir,  0i  esta  sesgado  hacia  arriba  por  0.02065. 


9  En  general,  sin  embargo,  la  direccion  del  sesgo  depende  de  la  estructura  del  modelo  particular  y  de  los  ver¬ 
daderos  valores  de  los  coeficientes  de  la  regresion. 

10  Tornado  de  Kenneth  J.  White,  Nancy  G.  Horsman  y  Justin  B.  Wyatt,  SHAZAM:  Computer  Handbook  for 
Econometric  for  Use  with  Basic  Econometrics,  McGraw-Hill,  Nueva  York,  pp.  1  31  -1  34. 
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TAB  LA  18.1 


Yt 

ct 

It 

(1) 

(2) 

(3) 

(4) 

18.15697 

16.15697 

2.0 

-0.3686055 

19.59980 

17.59980 

2.0 

— 0.8004084E-01 

21.93468 

19.73468 

2.2 

0.1869357 

21.55145 

19.35145 

2.2 

0.1102906 

21.88427 

19.48427 

2.4 

-0.231 4535E-01 

22.42648 

20.02648 

2.4 

0.8529544E-01 

25.40940 

22.80940 

2.6 

0.4818807 

22.69523 

20.09523 

2.6 

-0.6095481  E-01 

24.36465 

21.56465 

2.8 

0.7292983E-01 

24.39334 

21.59334 

2.8 

0.786681  9E-01 

24.09215 

21.09215 

3.0 

-0.1815703 

24.87450 

21.87450 

3.0 

— 0.2509900E-01 

25.31580 

22.11580 

3.2 

-0.1368398 

26.30465 

23.10465 

3.2 

0.6092946E-01 

25.78235 

22.38235 

3.4 

-0.2435298 

26.08018 

22.68018 

3.4 

-0.1839638 

27.24440 

23.64440 

3.6 

-0.1511200 

28.00963 

24.40963 

3.6 

0.1 926739E-02 

30.89301 

27.09301 

3.8 

0.3786015 

28.98706 

25.18706 

3.8 

— 0.2588852E-02 

Fuente:  Kenneth  J.  White,  Nancy  G.  Horsman  y  Justin  B.  Wyatt,  SHAZAM  Computer  Handbook  for  Econometrics  for  Use  with  Damodar 
Gujarati:  Basic  Econometrics,  septiembre,  1985,  p.  132. 


Ahora  efectuemos  la  regresion  de  C,  sobre  Y,  con  la  informacion  de  la  tabla  18.1;  los  resulta- 
dos  de  la  regresion  son 

C,=  1.4940  +  0.82065  Y, 

ee  =  (0.35413)  (0.01434)  (18.4.2) 

t  =  (4.2188)  (57.209)  R2  =  0.9945 

Como  se  esperaba,  la  f3\  estimada  es  precisamente  la  predicha  por  (18.4. 1).  A  proposito,  observe 
que  la  /Jo  estimada  tambien  esta  sesgada. 

En  general,  el  valor  del  sesgo  en  fi\  depende  de  /Ji,  a 2  y  var(E),  y,  en  particular,  del  grado  de 
la  covarianza  entre  Yy  u. 1 1  Como  afirman  Kenneth  White  et  al.,  “en  esto  consiste  el  sesgo  de  las 
ecuaciones  simultaneas.  En  contraste  con  los  modelos  uniecuacionales,  ya  no  podemos  seguir 
suponiendo  que  las  variables  del  lado  derecho  de  la  ecuacion  no  estan  correlacionadas  con  el 
termino  de  error”.12  Tenga  en  cuenta  que  este  sesgo  permanece  aun  en  muestras  grandes. 

En  vista  de  las  consecuencias  potencialmente  graves  de  la  aplicacion  del  MCO  a  los  modelos 
de  ecuaciones  simultaneas,  /.existe  una  prueba  de  simultaneidad  que  indique  si  en  un  momenta 
dado  se  tiene  un  problema  de  simultaneidad?  Una  version  de  la  prueba  de  especificacion  de 
Hausman  sirve  para  este  proposito,  y  la  analizaremos  en  el  capitulo  19. 


11  Vease  la  ecuacion  (1 8.3.5). 

12  Op.  at,  pp.  133-134. 
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Resumen  y 
conclusiones 


EJERCICIOS 


1 .  En  contraste  con  los  modelos  uniecuacionales,  los  de  ecuaciones  simultaneas  contienen  mas 
de  una  variable  dependiente,  o  endogena,  lo  cual  requiere  un  numero  de  ecuaciones  igual  al 
numero  de  variables  endogenas. 

2.  Una  caracteristica  unica  de  los  modelos  de  ecuaciones  simultaneas  es  que  la  variable  endo¬ 
gena  (es  decir,  la  variable  regresada)  en  una  ecuacion  puede  aparecer  como  variable  explica- 
tiva  (es  decir,  como  regresora)  en  otra  ecuacion  del  sistema. 

3.  Como  consecuencia,  tal  variable  explicativa  endogena  se  convierte  en  estocastica  y  suele 
estar  correlacionada  con  el  termino  de  perturbacion  de  la  ecuacion  en  la  cual  aparece  como 
variable  explicativa. 

4.  En  esta  situation  no  es  aplicable  el  metodo  clasico  de  MCO  porque  los  estimadores  asi  obte- 
nidos  no  son  consistentes,  es  decir,  no  convergen  hacia  sus  verdaderos  valores  poblacionales 
sin  importar  que  tan  grande  sea  la  muestra. 

5.  El  ejemplo  de  Monte  Carlo  presentado  en  el  texto  muestra  la  naturaleza  del  sesgo  contenido 
en  la  aplicacion  de  MCO  para  estimar  los  parametros  de  una  ecuacion  de  regresion,  en  la  cual 
la  regresora  esta  correlacionada  con  el  termino  de  perturbacion,  que  es  el  caso  habitual  en  los 
modelos  de  ecuaciones  simultaneas. 

6.  Como  los  modelos  de  ecuaciones  simultaneas  son  frecuentes,  sobre  todo  en  los  modelos  eco- 
nometricos,  diversos  autores  han  desarrollado  tecnicas  alternas  de  estimacion.  Las  analizare- 
mos  en  el  capitulo  20,  despues  del  problema  de  identification  en  el  capitulo  19,  tema  que 
logicamente  es  previo  a  la  estimacion. 


Preguntas 

18.1.  Elabore  un  modelo  de  ecuaciones  simultaneas  para  la  oferta  y  la  demanda  de  odontologos 
en  Estados  Unidos.  Especifique  las  variables  endogenas  y  exogenas  en  el  modelo. 

1 8.2.  Elabore  un  modelo  simple  de  la  demanda  y  la  oferta  de  dinero  en  Estados  Unidos,  y  com- 
parelo  con  los  de  K.  Brunner  y  A.  H.  Meltzer,* *  y  R.  Tiegen  j 

18.3.  a)  Para  el  modelo  de  demanda  y  oferta  del  ejemplo  18.1,  obtenga  la  expresion  para  el 

limite  de  probabilidad  de  «| . 

b)  ^En  que  condiciones  este  limite  de  probabilidad  sera  igual  al  verdadero  cyi? 

18.4.  Para  el  modelo  IS-LM  analizado  en  el  texto,  encuentre  los  niveles  de  tasa  de  interes  y 
de  ingreso  simultaneamente  compatibles  con  el  equilibrio  del  mercado  de  bienes  y  de 
dinero. 

18.5.  Para  estudiar  la  relation  entre  la  inflation  y  el  rendimiento  de  las  acciones  comunes, 
Bruno  Oudet*  utilizo  el  siguiente  modelo: 

Rbt  —  <*i  +  uiRst  +  oiT,Rbt-\  +  014L,  +  a.sYt  +  agNISf  +  a-]  It  +  u\, 

Rsl  —  P\  +  Pi  Rbt  +  PlRbt- 1  +  P\Lt  +  PsYt  +  /^NIS,  +  P-jE,  +  U2t 


*  "Some  Further  Evidence  on  Supply  and  Demand  Functions  for  Money",  Journal  of  Finance,  vol.  1 9,  mayo 
de  1964,  pp.  240-283. 

*  "Demand  and  Supply  Functions  for  Money  in  the  United  States",  Econometrica,  vol.  32,  num.  4,  octubre  de 
1964,  pp.  476-509. 

*  Bruno  A.  Oudet,  "The  Variation  of  the  Return  on  Stocks  in  Periods  of  Inflation",  Journal  of  Financial  and 
Quantitative  Analysis,  vol.  8,  num.  2,  marzo  de  1973,  pp.  247-258. 
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donde  L  —  base  monetaria  real  per  capita 
Y  —  ingreso  real  per  capita 
I  —  tasa  de  inflation  esperada 
NIS  =  variable  de  una  nueva  emision 

E  —  rendimientos  esperados  de  acciones  a  fin  de  periodo,  representados  por 
razones  de  precios  de  acciones  rezagadas 
Rbt  =  rendimiento  de  los  bonos 
Rst  =  rendimiento  de  las  acciones  comunes 

a)  Presente  una  justificacion  teorica  para  este  modelo  y  vea  si  su  razonamiento  coincide 
con  el  de  Oudet. 

b )  (.Cualcs  son  las  variables  endogenas  del  modelo?  ,'  Y  las  exogenas? 

c)  ^Como  consideraria  las  Rbt  rezagadas  endogenas  o  exogenas? 

18.6.  En  su  articulo,  “Un  modelo  de  distribucion  de  productos  de  uso  personal  de  marca  en 
Jamaica”,*  John  U.  Farley  y  Harold  J.  Levitt  desarrollaron  el  siguiente  modelo  (los  pro¬ 
ductos  de  uso  personal  fueron  crema  de  afeitar,  crema  para  la  piel,  panales  desechables  y 
crema  dental): 

Y\i  —  cx\  +  fi\Y2i  +  fcYy  +  Pt,Ym  +  uu 

Yu  —  «2  +  PaYh  +  PsYbi  +  Y\X\j  +  YlXli  +  U2i 

Yy  —  U2  +  P(,Y2i  +  Y3^ii  +  «3i 
Ym  —  0/4  +  /J7J2;  +  Y4^4i  +  U4i 
Ysi  —  015  +  PsY2i  +  PgY^i  +  P10Y41  +  u$i 

donde  Y\  =  porcentaje  de  tiendas  que  tienen  existencias  del  producto 
Y2  —  unidades  vendidas  por  mes 

73  =  indice  de  contacto  directo  con  el  importador  y  con  el  fabricante  del  pro¬ 
ducto 

Y4  —  indice  de  actividad  de  las  ventas  al  mayoreo  en  el  area 
Y5  =  indice  de  penetracion  de  marca  del  producto  en  existencia  (por  ejemplo,  nu- 
mero  promedio  de  marcas  de  un  mismo  producto  almacenado  que  mantienen 
las  tiendas  que  ofrecen  el  producto  en  venta) 

X\  —  poblacion  objetivo  para  el  producto 

X2  —  ingreso  per  capita  en  la  poblacion  donde  se  situa  el  area 

X3  =  distancia  del  centra  de  gravedad  poblacional  a  Kingston 

X4  —  distancia  del  centro  poblacional  al  pueblo  mayorista  mas  cercano 

a)  7,Puede  identificar  las  variables  endogenas  y  exogenas  en  el  modelo  anterior? 

b)  (.Puede  estimar  una  o  mas  ecuaciones  en  el  modelo  mediante  el  metodo  de  minimos 
cuadrados?  (',Por  que? 

18.7.  Para  estudiar  la  relacion  entre  el  gasto  en  publicidad  y  las  ventas  de  cigarrillos,  Frank 
Bass  utilizo  el  siguiente  modelo:1 

Y\t  —  ai  +  PiYy  +  P2  74/  +  YiXit  +  YiX2t  +  Mu 

Y2t  —  “2  +  PlY^t  +  @4Y4t  +  YlX\t  +  Y4X2t  +  U2t 

Yit  —  “3  +  fcYu  +  P&Y2t  +  uy 

7),  =  a4  +  PjY\,  +  P&Y2i  +  U4t 


*  lournal  of  Marketing  Research,  noviembre  de  1968,  pp.  362-368. 

f  "A  Simultaneous  Equation  Regression  Study  of  Advertising  and  Sales  of  Cigarettes",  lournal  of  Marketing 
Research,  vol.  6,  agosto  de  1969,  pp.  291-300. 
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donde  Y\  =  logaritmo  de  las  ventas  de  cigarrillos  con  filtro  (numero  de  cigarrillos)  divi- 
dido  entre  la  poblacion  mayor  de  20  anos 

Y2  —  logaritmo  de  ventas  de  cigarrillos  sin  filtro  (numero  de  cigarrillos)  dividido 
entre  la  poblacion  mayor  de  20  anos 

73  =  logaritmo  del  valor  de  la  publicidad  de  cigarrillos  con  filtro  en  dolares  divi¬ 
dido  entre  la  poblacion  mayor  de  20  anos,  dividido  a  su  vez  entre  el  Indice  de 
precios  de  la  publicidad 

7 1  =  logaritmo  del  valor  de  la  publicidad  de  cigarrillos  sin  filtro  en  dolares  divi¬ 
dido  entre  la  poblacion  mayor  de  20  anos,  dividido  a  su  vez  entre  el  Indice  de 
precios  de  la  publicidad 

X\  —  logaritmo  del  ingreso  personal  disponible  dividido  entre  la  poblacion  mayor 
de  20  anos,  dividido  a  su  vez  entre  el  indice  de  precios  al  consumidor 

X2  —  logaritmo  del  precio  por  paquete  de  cigarrillos  sin  filtro  dividido  entre  el 
Indice  de  precios  al  consumidor 

a)  En  el  modelo  anterior,  las  7  son  endogenas  y  las  X  son  exogenas.  (',Por  que  supone  el 
autor  que  X2  es  exogena? 

b)  Si  X2  se  considera  una  variable  endogena,  <',c6mo  modificarla  el  modelo  anterior? 

18.8.  G.  Menges  desarrollo  el  siguiente  modelo  econometrico  para  la  economia  de  Alemania 
Occidental:* 


Y/  —  Po  +  Pi  7,_  1  +  fa  It  +  uu 
It  =  Ps  +  @4  Yt  +  PsQt  +  U2t 
Ct  —  P 6  +  Pi  Yt  +  PsC,- 1  +  Pg Pi  +  U2t 
Qt  —  Pw  +  PnQt~i  +  PnRt  +  U4 1 

donde  7  =  ingreso  nacional 

I  =  formacion  neta  de  capital 
C  =  consumo  personal 
Q  =  utilidades 
P  =  indice  del  costo  de  vida 
R  =  productividad  industrial 
t  =  tiempo 

u  =  perturbaciones  estocasticas 

a)  1  Que  variables  consideraria  endogenas  y  cuales  exogenas? 

b)  ^Hay  alguna  ecuacion  en  el  sistema  que  pueda  estimarse  mediante  el  metodo  de  ml- 
nimos  cuadrados  uniecuacional? 

c)  (',Cual  es  la  razon  para  incluir  la  variable  P  en  la  funcion  consumo? 

18.9.  L.  E.  Gallaway  y  P.  E.  Smith  elaboraron  un  modelo  simple  para  la  economia  de  Estados 
Unidos,  que  es  el  siguiented 

Y,  =  Ct  + It  +  G, 

Ct  —  Pi  +  ^2YD,_i  +  P^M,  +  U\t 

I,  —  P4  +  Ps{Yt-\  —  Y,_2 )  +  PbZ,_i  +  U2t 

G,  —  Pi  +  P&G,~1  +  Uy 


*G.  Menges,  "Ein  Okonometriches  Modell  der  Bundesrepublik  Deutschland  (Vier  Strukturgleichungen)", 
I.F.O.  Studien,  vol.  5,  1959,  pp.  1-22. 

t  "A  Quarterly  Econometric  Model  of  the  United  States",  Journal  of  American  Statistical  Association,  vol.  56, 
1961,  pp.  379-383. 
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donde 


Y  =  producto  nacional  bruto 
C  =  gasto  de  consumo  personal 
/  =  inversion  privada  domestica  bruta 
G  —  gasto  del  gobierno  mas  inversion  extranjera  neta 
YD  =  ingreso  disponible,  o  despues  de  impuestos 
M  =  oferta  monetaria  al  principio  del  trimestre 
Z  =  ingreso  patrimonial  antes  de  impuestos 
t  =  tiempo 

«i,  M2  y  M3  =  perturbaciones  estocasticas 


Todas  las  variables  estan  medidas  en  forma  de  primeras  diferencias. 

Con  base  en  la  informacion  trimestral  de  1948  a  1957,  los  autores  aplicaron  el  metodo 
de  minimos  cuadrados  a  cada  ecuacion  individualmente  y  obtuvieron  los  siguientes  resul- 
tados: 

C,  =  0.09  +  0.43YD,_i  +  0.23  M,  R2  =  0.23 

I,  =  0.08  +  0.43(Yi_i  -  Y,_2)  +  0.48Z,  R2  =  0.40 

G,  =  0.13  +  0.67G,_i  R2  —  0.42 

a)  /Como  justifica  el  uso  del  metodo  de  minimos  cuadrados  uniecuacional  en  este 
caso? 

b)  /Por  que  los  valores  R1  son  relativamente  bajos? 


Ejercicios  empfricos 

18.10.  En  la  tabla  18.2  se  da  la  siguiente  informacion  sobre  Y (producto  interno  bruto),  C  (gasto 
de  consumo  personal)  e  /  (inversion  privada  domestica  bruta),  en  miles  de  millones  de 
dolares  de  1996,  en  Estados  Unidos,  de  1970  a  2006.  Suponga  que  C  esta  relacionada  li- 
nealmente  con  Y  como  en  el  modelo  keynesiano  simple  de  determinacion  del  ingreso  del 
ejemplo  18.2.  Obtenga  estimaciones  por  MCO  de  los  parametros  de  la  funcion  consumo. 
Guarde  los  resultados  para  una  revision  posterior,  con  los  metodos  desarrollados  en  el 
capitulo  20. 

18.11.  Con  la  informacion  del  ejercicio  18.10,  efectue  la  regresion  de  la  inversion  domestica 
bruta  /  sobre  el  PIB  y  guarde  los  resultados  para  examinarlos  de  nuevo  en  un  capitulo 
posterior. 

18.12.  Considere  la  identidad  macroeconomica 

C+I=Y  (  =  PIB) 

Igual  que  antes,  suponga  que 

Ct  =  Po  +  P\Yt  +  i<t 

y,  segun  el  modelo  acelerador  de  macroeconomia,  sea 

It  =  ao  +  °b  iXt~  Yt- 1)  +  v, 

donde  u  y  v  son  los  terminos  de  error.  Con  la  informacion  del  ejercicio  18.10,  estime  el 
modelo  acelerador  y  guarde  los  resultados  para  un  estudio  posterior. 

18.13.  Oferta  y  demanda  de  gasolina.  La  tabla  18.3,  que  se  encuentra  en  el  sitio  web  del  libro 
de  texto,  presenta  datos  sobre  algunas  variables  que  determinaron  la  demanda  y  oferta 
de  gasolina  en  Estados  Unidos  de  enero  de  1978  a  agosto  de  2002.*  Las  variables  son 


*  Estos  datos  se  tomaron  del  sitio  web  de  Stephen  J.  Schmidt,  Econometrics,  McGraw-Hill,  Nueva  York,  2005, 
www.mhhe.com/economics. 
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TABLA  18.2  Gasto  de  consumo  personal,  inversion  privada  domestica  bruta  y  PIB,  Estados  Unidos,  1970-2006  (miles  de 
millones  de  dolares  de  1996) 


Observacion 

C 

/ 

Y 

Observacion 

C 

/ 

Y 

1970 

2  451.9 

427.1 

3  771.9 

1989 

4  675.0 

926.2 

6  981.4 

1971 

2  545.5 

475.7 

3  898.6 

1990 

4  770.3 

895.1 

7  112.5 

1972 

2  701.3 

532.1 

4  105.0 

1991 

4  778.4 

822.2 

7  100.5 

1973 

2  833.8 

594.4 

4  341.5 

1992 

4  934.8 

889.0 

7  336.6 

1974 

2  812.3 

550.6 

4  319.6 

1993 

5  099.8 

968.3 

7  532.7 

1975 

2  876.9 

453.1 

4  311.2 

1994 

5  290.7 

1  099.6 

7  835.5 

1976 

3  035.5 

544.7 

4  540.9 

1995 

5  433.5 

1  134.0 

8  031.7 

1977 

3  164.1 

627.0 

4  750.5 

1996 

5  619.4 

1  234.3 

8  328.9 

1978 

3  303.1 

702.6 

5  015.0 

1997 

5  831.8 

1  387.7 

8  703.5 

1979 

3  383.4 

725.0 

5  173.4 

1998 

6  125.8 

1  524.1 

9  066.9 

1980 

3  374.1 

645.3 

5  161.7 

1999 

6  438.6 

1  642.6 

9  470.3 

1981 

3  422.2 

704.9 

5  291.7 

2000 

6  739.4 

1  735.5 

9  817.0 

1982 

3  470.3 

606.0 

5  189.3 

2001 

6  910.4 

1  598.4 

9  890.7 

1983 

3  668.6 

662.5 

5  423.8 

2002 

7  099.3 

1  557.1 

10  048.8 

1984 

3  863.3 

857.7 

5  813.6 

2003 

7  295.3 

1  613.1 

10  301.0 

1985 

4  064.0 

849.7 

6  053.7 

2004 

7  561.4 

1  770.2 

10  675.8 

1986 

4  228.9 

843.9 

6  263.6 

2005 

7  803.6 

1  869.3 

11  003.4 

1987 

4  369.8 

870.0 

6  475.1 

2006 

8  044.1 

1  919.5 

11  319.4 

1988  4  546.9  890.5  6  742.7 


Notas:  C  =  gasto  de  consumo  personal 

I  =  inversion  privada  domestica  bruta 
Y  =  producto  interno  bruto  (PIB) 

Fuente:  Economic  Report  of  the  President ,  2001,  tabla  B-2,  p.  276. 


pricegas  (centavos  por  galon);  quantgas  (miles  de  barriles  al  dia,  sin  plomo);  persincome 
(ingreso  personal,  miles  de  millones  de  dolares);  y  ventas  de  automoviles  (millones  de 
automoviles  al  ano). 

a)  Elabore  un  modelo  apropiado  de  oferta  y  demanda  para  el  consumo  de  gasolina. 

b)  (,Que  variables  del  modelo  de  a)  son  endogenas  y  cuales  exogenas? 

c)  Si  estima  las  funciones  de  demanda  y  oferta  que  obtuvo  por  MCO,  (Jos  resultados 
seran  confiables?  (,Por  que? 

d)  Guarde  las  estimaciones  de  MCO  de  las  funciones  de  demanda  y  oferta  para  otro 
ejercicio  despues  de  estudiar  el  capitulo  20. 

18.14.  La  tabla  18.4,  que  se  encuentra  en  el  sitio  web  del  libro  de  texto,  presenta  datos  ma- 
croeconomicos  sobre  diversas  variables  de  la  economia  estadounidense  para  los  perio- 
dos  trimestrales  de  1-1951  a  IV-2000.*  Las  variables  son  las  siguientes:  Year  =  fecha; 
Qtr  —  trimestre;  Realgdp  =  PIB  real  (miles  de  millones  de  dolares);  Realcons  —  gasto 
de  consumo  real;  Realinvs  =  inversion  real  del  sector  privado;  Realgovt  =  gasto  guber- 
namental  real;  Realdpi  —  ingreso  personal  disponible  real;  CPIJJ  =  indice  de  precios 
al  consumidor;  Ml  =  existencia  de  dinero  nominal;  Tbilrate  —  promedio  trimestral  de 
la  tasa  de  interes  de  los  pagares  de  la  Tesoreria  a  90  dias,  a  fin  de  mes;  Pop  —  poblacion, 
millones,  interpolacion  de  cifras  a  fin  de  ano  con  tasa  de  crecimiento  constante  por  tri¬ 
mestre;  Infl  =  tasa  de  inflacion  (falta  la  primera  observacion);  y  Realint  —  tasa  de  interes 
real  ex-post  =  Tbilrate-Infl  (falta  la  primera  observacion). 

Con  estos  datos,  formule  un  modelo  macroeconomico  sencillo  de  la  economia  estado¬ 
unidense.  En  el  capitulo  20  se  le  pedira  estimar  este  modelo. 


*  Estos  datos  provienen  del  Departamento  de  Comercio,  Oficina  de  Analisis  Economico  de  Estados  Unidos,  y 
de  www.economagic.com,  y  se  reproducen  de  William  H.  Greene,  Econometric  Analysis,  6a.  ed.,  2008,  tabla 
F5.1,  p.1083. 
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19 

El  problema  de 
la  identificacion 


En  este  capitulo  se  considera  la  naturaleza  y  el  significado  del  problema  de  la  identificacion,  cuya 
esencia  es  la  siguiente:  recuerde  el  modelo  de  demanda  y  oferta  presentado  en  la  section  18.2. 
Suponga  que  se  tiene  informacion  de  series  de  tiempo  sobre  Qy  P  solamente  y  que  no  hay  datos 
adicionales  (tales  como  el  ingreso  del  consumidor,  el  precio  prevaleciente  en  el  periodo  anterior 
y  las  condiciones  del  clima).  El  problema  de  la  identificacion  consiste  en  buscar  una  respuesta  a 
la  siguiente  pregunta:  dada  solamente  la  informacion  sobre  P  y  Q,  (',c6mo  se  sabe  si  se  esta  esti- 
mando  la  funcion  de  demanda  o  la  funcion  de  oferta?  O,  dicho  de  otra  manera,  si  se  piensa  que  se 
esta  ajustando  una  funcion  de  demanda,  ^como  se  garantiza  que,  en  realidad,  se  esta  estimando 
dicha  funcion  y  no  otra? 

Un  momento  de  reflexion  revelara  que  es  necesario  responder  a  la  pregunta  anterior  antes 
de  proceder  a  estimar  los  parametros  de  la  funcion  de  demanda.  Para  resolver  el  problema  de  la 
identificacion,  primero  se  introducen  algunas  notaciones  y  definiciones,  y  luego  se  ilustra  dicho 
problema  con  diversos  ejemplos.  En  seguida  se  establecen  las  reglas  que  pueden  utilizarse  para 
averiguar  si  una  ecuacion  en  un  modelo  de  ecuaciones  simultaneas  esta  identificada,  es  decir,  si 
en  realidad  se  trata  de  la  relation  que  se  esta  estimando,  bien  sea  la  funcion  de  demanda,  de  oferta 
u  otra  cualquiera. 


19.1  Notacion  y  definiciones 

Para  facilitar  la  exposition,  se  introducen  las  siguientes  notaciones  y  definiciones. 

El  modelo  general  deM  ecuaciones  con  M  variables  endogenas  o  conjuntamente  dependientes 
puede  escribirse  como  la  ecuacion  (19.1.1): 

Y\t  —  PnY2t  +  Yy  +  ■  ■  •  +  /?i  mYmi 

+  Vll^Yh  +  Vl2^2 1  +  •  •  ■  +  yiK^Kt  +  Ml  t 

Y2t  =  fh.\Yu  +  faYy  + - H  &2mY Mt 

+  K21^1r  +  y22%2 1  +  ■  ■  ■  +  y2K^Kt  +  ™2t 
Yy  —  PuYit  +  /I32  Y2t  +  ■  •  •  +  PimYmi 

+  K31^n  +  yn^2l  +  ■  ■  •  +  ysK^Kt  +  Uy 


Ymt  —  PmiY\,  +  PM2Y21  +  ■  ■  •  +  Pm,m-iYm-u 

+  YmXu  +  yM2^2t  +  ■  ■  ■  +  YmkXki  +  umi 


(19.1.1) 
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donde  Y\,  Y2, . . . ,  Ym  =  M  variables  endogenas  o  conjuntamente  dependientes 

X\,  X2, .  .  .  ,Xk  =  K  variables  predeterminadas  (una  de  estas  variables  X puede  tomar  un 
valor  unitario  para  dar  cabida  al  termino  del  intercepto  en  cada  ecua¬ 
cion) 

mi,  U2, ,  um  =  M  perturbaciones  estocasticas 

t  —  1,2 , ...  ,T  =  numero  total  de  observaciones 
P  =  coeficientes  de  las  variables  endogenas 
Y  =  coeficientes  de  las  variables  predeterminadas 
Como  se  puede  observar,  no  es  preciso  que  todas  y  cada  una  de  las  variables  aparezcan  en  cada 
ecuacion.  En  efecto,  como  se  muestra  en  la  seccion  19.2,  para  que  una  ecuacion  este  identifica- 
da  no  es  indispensable  que  la  totalidad  de  las  variables  aparezca  en  cada  ecuacion. 

En  la  ecuacion  (19.1.1)  se  observa  que  las  variables  que  forman  parte  del  modelo  de  ecua¬ 
ciones  simultaneas  son  de  dos  tipos:  endogenas,  es  decir,  aquellas  determinadas  (cuyos  valores 
estan)  dentro  del  modelo;  y  predeterminadas,  es  decir,  aquellas  determinadas  (cuyos  valores  es¬ 
tan)  fuera  del  modelo.  Las  variables  endogenas  se  consideran  estocasticas,  en  tanto  que  las  pre¬ 
determinadas  se  consideran  como  no  estocasticas. 

Las  variables  predeterminadas  estan  divididas  en  dos  categorias:  exogenas,  tanto  actuales 
como  rezagadas,  y  endogenas  rezagadas.  Asi,  X\t  es  una  variable  exogena  actual  (del  tiempo 
presente),  mientras  que  X i(,_d  es  una  variable  exogena  rezagada,  con  un  rezago  de  un  intervalo 
de  tiempo.  es  una  variable  endogena  rezagada  con  rezago  de  un  intervalo  de  tiempo,  pero, 
puesto  que  el  valor  de  Lpr-i)  es  conocido  en  el  periodo  actual  t,  esta  es  considerada  como  no 
estocastica  y,  por  tanto,  es  una  variable  predeterminada.1  En  resumen,  las  variables  exogenas 
actuales  y  rezagadas  y  las  endogenas  rezagadas  se  consideran  predeterminadas;  sus  valores  no 
estan  determinados  por  el  modelo  en  el  periodo  de  tiempo  actual. 

Corresponde  al  disenador  del  modelo  especificar  cuales  variables  son  endogenas  y  cuales  son 
predeterminadas.  Aunque  las  variables  (no  economicas),  tales  como  la  temperatura  y  la  lluvia, 
son  claramente  exogenas  o  predeterminadas,  el  disenador  de  modelos  debe  tener  gran  precaution 
al  clasificar  las  variables  economicas  como  endogenas  o  predeterminadas,  debiendo  defender  la 
clasificacion  con  argumentos  teoricos  a  priori.  No  obstante,  mas  adelante  en  el  capitulo  se  pro- 
porciona  una  prueba  estadistica  de  exogeneidad. 

Las  ecuaciones  que  aparecen  en  (19.1.1)  se  conocen  como  ecuaciones  estructurales  o  de 
comportamiento,  porque  muestran  la  estructura  (de  un  modelo  economico)  de  una  economia  o 
del  comportamiento  de  un  agente  economico  (por  ejemplo,  un  consumidor  o  un  productor).  Las 
ft  y  las  y  se  conocen  como  parametros  o  coeficientes  estructurales. 

A  partir  de  las  ecuaciones  estructurales  se  pueden  resolver  para  las  M  variables  endogenas,  de- 
rivar  las  ecuaciones  en  forma  reducida  y  los  correspondientes  coeficientes  en  forma  reducida. 
Una  ecuacion  en  forma  reducida  es  aquella  que  expresa  unicamente  una  variable  endogena 
en  terminos  de  las  variables  predeterminadas  y  las  perturbaciones  estocasticas.  A  modo  de 
ilustracion,  puede  considerarse  el  modelo  keynesiano  de  determination  del  ingreso  presentado 
en  el  capitulo  18: 

Funcion  de  consumo:  Ct=  Po  + P\Y,  + ut  0  <  /Si  <  1  (18. 2. 3) 

Identidad  del  ingreso :  Y,  =  C,  +  /,  (1 8.2.4) 

En  este  modelo,  C  (consumo)  y  Y  (ingreso)  son  las  variables  endogenas  e  /(gasto  de  inversion)  es 
considerada  como  una  variable  exogena.  Ambas  ecuaciones  son  estructurales,  siendo  la  ecuacion 
(18.2.4)  una  identidad.  Como  es  usual,  se  supone  que  la  PMC  Pi  se  encuentra  entre  0  y  1. 

Si  la  ecuacion  (18.2.3)  es  sustituida  en  la  ecuacion  (18.2.4),  mediante  un  reordenamiento 
algebraico  simple  se  obtiene: 

Yt  —  n0  +  n ! /,  +  wr  (19.1.2) 


1  Se  supone  implfcitamente  aquf  que  las  perturbaciones  estocasticas,  las  u,  no  estan  serialmente  correlacio- 
nadas.  De  no  ser  asf,  Yt_  1  estarfa  correlacionada  con  el  termino  de  perturbacion  del  periodo  actual  ut  y,  por 
tanto,  no  se  podrfa  tratar  como  predeterminada. 
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en  donde 


n0 


A) 

l-/6i 


ni 


1 

1-/Si 


i- A 


(19.1.3) 


La  ecuacion  (19.1.2)  es  una  ecuacion  en  forma  reducida;  expresa  la  variable  endogena Y  sola- 
mente  como  funcion  de  la  variable  exogena  /  (o  predeterminada)  y  del  termino  de  perturbacion 
estocastica  u.  Llo  y  LI  i  son  los  correspondientes  coeficientes  en  forma  reducida.  Observe  que 
estos  coeficientes  son  combinaciones  no  lineales  del  (los)  coeficiente(s)  estructural(es). 

A1  sustituir  el  valor  de  Y  de  la  ecuacion  (19.1.2)  en  C  de  la  ecuacion  (18.2.3),  se  obtiene  otra 
ecuacion  en  forma  reducida: 


en  donde 


Ct-n2  + 113/,  +  wt 


(19.1.4) 


n2 


/0Q 

1-/01 


n3 


/6i 

i-/0i 


w, 


Ut 

i-A 


(19.1.5) 


Los  coeficientes  en  la  forma  reducida,  tales  como  LL  y  n3,  tambien  se  conocen  como  multi- 
plicadores  de  impacto  o  de  corto  plazo,  porque  miden  el  impacto  inmediato  sobre  la  variable 
endogena  de  un  cambio  unitario  del  valor  de  la  variable  exogena.2  Si  en  el  modelo  keynesiano 
anterior  se  incrementa  el  gasto  de  inversion  en  1  dolar,  por  ejemplo,  y  se  supone  que  la  PMC  es 
de  0.8,  entonces  de  la  ecuacion  (19.1.3),  se  obtiene  Eli  =  5.  Este  resultado  significa  que  el  incre- 
mento  de  1  dolar  en  la  inversion  (en  el  tiempo  actual)  producira  inmediatamente  un  incremento 
en  el  ingreso  de  5  dolares,  o  sea,  un  aumento  cinco  veces  mayor.  En  forma  similar,  bajo  las  con- 
diciones  supuestas,  la  ecuacion  (19.1.5)  muestra  que  n3  =  4,  lo  cual  significa  que  un  incremento 
de  1  dolar  en  el  gasto  de  inversion  conllevara  de  inmediato  a  un  incremento  de  4  dolares  en  el 
gasto  de  consumo. 

En  el  contexto  de  los  modelos  econometricos,  ecuaciones  tales  como  la  (18.2.4)  o  Qd,  —  Qs, 
(la  cantidad  demandada  igual  a  la  cantidad  ofrecida)  se  conocen  como  condiciones  de  equilibria. 
La  identidad  (18.2.4)  establece  que  el  ingreso  agregado  Y  debe  ser  igual  al  consumo  agregado  (es 
decir,  gastos  de  consumo  mas  gastos  de  inversion).  Cuando  se  alcanza  este  equilibrio,  las  varia¬ 
bles  endogenas  asumen  sus  valores  de  equilibrio.3 

Observe  una  caracteristica  interesante  de  las  ecuaciones  en  forma  reducida.  Puesto  que  sola- 
mente  las  variables  predeterminadas  y  las  perturbaciones  estocasticas  aparecen  al  lado  derecho 
de  estas  ecuaciones,  y  puesto  que  se  ha  presumido  que  las  variables  predeterminadas  no  estan  co- 
rrelacionadas  con  los  terminos  de  perturbacion,  el  metodo  de  MCO  puede  aplicarse  para  estimar 
los  coeficientes  de  las  ecuaciones  en  forma  reducida  (las  n ).  A  partir  de  estos  se  pueden  estimar  los 
coeficientes  estructurales  (las  /3),  como  se  muestra  mas  adelante.  Este  procedimiento  se  cono- 
ce  como  minimos  cuadrados  indirectos  (MCI),  y  los  coeficientes  estructurales  estimados  se 
denominan  estimaciones  por  MCI. 


2  En  los  modelos  econometricos,  las  variables  exogenas  desempenan  un  papel  crucial.  Con  mucha  frecuen- 
cia,  esas  variables  estan  bajo  el  control  directo  del  gobierno.  Algunos  ejemplos  son  la  tasa  de  impuestos  per¬ 
sonates  y  empresariales,  los  subsidios  y  los  seguros  de  desempleo,  etcetera. 

3  Para  mayores  detalles,  vease  Jan  Kmenta,  Elements  of  Econometrics,  2a.  ed.,  Macmillan,  Nueva  York,  1986, 
pp.  723-731. 
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En  el  capitulo  20  se  estudiara  el  metodo  de  MCI  con  mayor  detalle.  Mientras  tanto,  observe 
que  puesto  que  los  coeficientes  en  la  forma  reducida  pueden  estimarse  mediante  el  metodo  de 
MCO,  y  puesto  que  dichos  coeficientes  son  combinaciones  de  los  coeficientes  estructurales, 
existe  la  posibilidad  de  que  estos  ultimos  puedan  ser  “recuperados”  a  partir  de  los  coeficientes 
en  la  forma  reducida,  y  es  en  la  estimation  de  los  parametros  estructurales  donde  se  puede  estar 
finalmente  interesado.  <,C6mo  se  recuperan  los  coeficientes  estructurales  a  partir  de  los  coeficien¬ 
tes  en  la  forma  reducida?  La  respuesta  se  da  en  la  seccion  19.2  y  contiene  la  esencia  del  problema 
de  identificacion. 


19.2  Problema  de  identificacion 


El  problema  de  identificacion  pretende  establecer  si  las  estimaciones  numericas  de  los  parame¬ 
tros  de  una  ecuacion  estructural  pueden  obtenerse  de  los  coeficientes  en  forma  reducida  estima- 
dos.  Si  puede  hacerse,  se  dice  que  la  ecuacion  particular  esta  identificada',  si  no,  se  dice  entonces 
que  la  ecuacion  bajo  consideration  esta  no  identificada  o  subidentificada. 

Una  ecuacion  identificada  puede  estar  exactamente  (o  total  o  precisamente)  identificada  o  so- 
breidentficada.  Se  dice  que  esta  exactamente  identificada  si  pueden  obtenerse  valores  numericos 
unicos  de  los  parametros  estructurales.  Se  dice  que  esta  sobreidentificada  si  puede  obtenerse  mas 
de  un  valor  numerico  para  algunos  de  los  parametros  de  las  ecuaciones  estructurales.  Las  circuns- 
tancias  bajo  las  cuales  puede  ocurrir  cada  uno  de  los  casos  anteriores  se  indicaran  en  seguida. 

El  problema  de  identificacion  surge  porque  diferentes  conjuntos  de  coeficientes  estructurales 
pueden  ser  compatibles  con  el  mismo  conjunto  de  information.  En  otras  palabras,  una  ecuacion 
en  una  forma  reducida  dada  puede  ser  compatible  con  diferentes  ecuaciones  estructurales  o  con 
diferentes  hipotesis  (modelos),  y  puede  ser  dificil  decir  cual  hipotesis  (modelo)  particular  se  esta 
investigando.  En  lo  que  resta  de  la  seccion  se  consideran  diversos  ejemplos  para  mostrar  la  natu- 
raleza  del  problema  de  identificacion. 

Subidentificacion 

Considere  de  nuevo  el  modelo  de  demanda  y  oferta  (18.2.1)  y  (18.2.2),  conjuntamente  con  la 
condicion  de  mercado  nivelado,  o  de  equilibrio,  segun  la  cual  la  demanda  es  igual  a  la  oferta. 
Mediante  la  condicion  de  equilibrio  se  obtiene: 


ao  +  «i  Pt  +  U\t  —  Po  +  Pi  P,  +  U2t 

(19.2.1) 

A1  resolver  la  ecuacion  (19.2.1)  se  obtiene  el  precio  de  equilibrio 

P t  —  EIo  +  v, 

(19.2.2) 

en  donde 

„  Po  -  «o 

11°  =  „ 
oq  -  pi 

(19.2.3) 

U2t  U\t 

V,  =  - 

Oil  -  Pi 

(19.2.4) 

A1  sustituir  P,  de  la  ecuacion  (19.2.2)  en  la  ecuacion  (18.2.1)  o  (18.2.2), 
cantidad  de  equilibrio: 

se  obtiene  la  siguiente 

Qt  —  n  i  +  wt 

(19.2.5) 

en  donde 

aiA)  -  (*oP\ 

ill  =  - 

«i  -  P\ 

(19.2.6) 

aqt/2,  -  P\u\t 

Wr  =  „ 

«1  -  Pi 

(19.2.7) 
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A  proposito,  es  necesario  observar  que  los  terminos  de  error  v,  y  w,  son  combinaciones  linea- 
les  de  los  terminos  de  error  originales  u\  y  ui- 

Las  ecuaciones  (19.2.2)  y  (19.2.5)  son  ecuaciones  en  forma  reducida.  Ahora  bien,  el  mo- 
delo  de  demanda  y  oferta  contiene  cuatro  coeficientes  estructurales  ao,  “i,  Po  y  Pi,  pero  no  hay 
una  forma  unica  de  estimarlos.  pPor  que?  La  respuesta  se  encuentra  en  los  dos  coeficientes  en 
la  forma  reducida  dados  en  las  ecuaciones  (19.2.3)  y  (19.2.6).  Estos  coeficientes  contienen  los 
cuatro  parametros  estructurales,  pero  no  hay  forma  de  estimar  las  cuatro  incognitas  estructurales 
a  partir  unicamente  de  dos  coeficientes  en  forma  reducida.  En  el  algebra  de  secundaria  se  decia 
que  para  estimar  cuatro  incognitas  se  deben  tener  cuatro  ecuaciones  (independientes)  y,  en  ge¬ 
neral,  para  estimar  k  incognitas  se  deben  tener  k  ecuaciones  (independientes).  A  proposito,  si  se 
efectua  la  regresion  en  forma  reducida  (19.2.2)  y  (19.2.5)  se  vera  que  no  hay  variables  explicati- 
vas,  solo  las  constantes,  y  estas  simplemente  daran  los  valores  promedio  dc  P  y  Q  ((,por  que?). 

Todo  esto  significa  que,  dada  la  informacion  de  series  de  tiempo  sobre  P  (precio)  y  Q  (can- 
tidad)  y  ninguna  informacion  adicional,  no  hay  forma  de  que  el  investigador  pueda  garantizar 
si  esta  estimando  la  funcion  de  demanda  o  la  funcion  de  oferta.  Es  decir,  unos  P,  y  Q,  dados 
representan  simplemente  el  punto  de  interseccion  de  las  curvas  apropiadas  de  demanda  y  oferta 
en  razon  de  la  condition  de  equilibrio  de  que  la  demanda  sea  igual  a  la  oferta.  Para  ver  esto  con 
claridad,  considere  el  diagrama  de  dispersion  que  aparece  en  la  figura  19.1. 

La  figura  19.1a)  muestra  algunos  puntos  dispersos  que  relacionan  Q  con  P.  Cada  punto  dis¬ 
perse  representa  la  interseccion  de  una  curva  de  demanda  y  de  oferta,  como  se  muestra  en  la 
figura  19.1b).  Ahora  considere  un  punto  aislado  como  el  que  se  muestra  en  la  figura  19.1c).  No 
hay  forma  de  asegurar  cual  de  las  curvas  de  demanda  y  oferta,  entre  toda  la  familia  de  curvas  que 
aparece  en  ese  panel,  genero  ese  punto.  Es  claro  que  se  requiere  informacion  adicional  sobre  la 
naturaleza  de  dichas  curvas.  Por  ejemplo,  si  la  curva  de  demanda  se  desplaza  en  el  tiempo  debido 


FIGURA  19.1 

Funciones  hipoteticas  de 
oferta  y  demanda  y  el  pro¬ 
blema  de  la  identificacion. 
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a  cambios  en  el  ingreso,  en  los  gustos,  etc.,  pero  la  de  oferta  permanece  relativamente  estable 
ante  esos  cambios,  como  se  ilustra  en  la  figura  19.1  d),  los  puntos  dispersos  indican  una  curva 
de  oferta.  En  esta  situacion,  se  dice  que  se  ha  identificado  la  curva  de  oferta.  Mediante  el  mismo 
procedimiento,  si  la  curva  de  oferta  se  desplaza  en  el  tiempo  debido  a  cambios  en  las  condiciones 
climaticas  (en  el  caso  de  bienes  agricolas)  o  debido  a  otros  factores  externos,  pero  la  de  demanda 
permanece  relativamente  estable,  como  se  ilustra  en  la  figura  19.1e),  los  puntos  dispersos  indican 
una  curva  de  demanda.  En  este  caso,  se  dice  que  la  curva  de  demanda  se  ha  identificado. 

Hay  una  forma  alterna  y  posiblemente  mas  ilustrativa  de  considerar  el  problema  de  la  identi- 
ficacion.  Suponga  que  se  multiplica  la  ecuacion  (18.2.1)  por  1(0  <  1  <  1)  y  la  ecuacion  (18.2.2) 
por  1  —  X  para  obtener  las  siguientes  ecuaciones  ( nota :  se  eliminan  aqui  los  superindices  de  Q): 

XQt  —  Xao  Xa \ Pf  -\-  Xu \  f  (1 9.2.8) 

(1  -  X)Q,  =  (1  -  k)fo  +  (1  -  WiPt  +  (1  -  Vuit  (19.2.9) 

A1  sumar  estas  dos  ecuaciones,  se  obtiene  la  siguiente  combination  lineal  de  las  ecuaciones  ori- 
ginales  de  demanda  y  oferta: 

Qt-yo  +  yiPt+w,  (19.2.10) 

donde 

/o  =  Xao  +  ( 1  —  X)/30 

yi  =  l«i  +  (1  -  1)A  (19.2.11) 

Wt  =  Xu\t  +  (1  —  X)ll2t 

La  ecuacion  (19.2.10)  “falsa”  o  “hibrida”,  a  partir  de  la  observation,  no  es  distinguible  de 
la  ecuacion  (18.2.1)  ni  de  la  (18.2.2),  porque  estas  consideran  las  regresiones  de  Q  y  de  P.  Por 
consiguiente,  si  se  tiene  informacion  de  series  de  tiempo  sobre  P  y  Q  solamente,  cualquiera  de 
las  ecuaciones  (18.2.1),  (18.2.2)  o  (19.2.10)  puede  ser  compatible  con  la  misma  informacion.  En 
otras  palabras,  la  misma  informacion  puede  ser  compatible  con  la  “hipotesis”  de  las  ecuaciones 
(18.2.1),  (18.2.2)  o  (19.2.10),  y  no  hay  forma  de  decir  cual  de  estas  se  esta  verificando. 

Para  que  una  ecuacion  este  identificada,  es  decir,  para  que  sus  parametros  sean  estimados, 
debe  mostrarse  que  el  conjunto  dado  de  informacion  no  producira  una  ecuacion  estructural  que 
sea  similar  en  apariencia  a  la  ecuacion  en  la  cual  se  esta  interesado.  Si  se  pretende  estimar  la 
funcion  de  demanda,  se  debe  demostrar  que  la  informacion  dada  no  es  consistente  con  la  funcion 
de  oferta  ni  con  otro  tipo  de  ecuacion  hibrida. 

Identificacion  precisa  o  exacta 

La  razon  por  la  cual  no  fue  posible  identificar  las  anteriores  funciones  de  demanda  o  de  oferta 
fue  porque  las  mismas  variables  P  y  Q  estan  presentes  en  ambas  funciones  y  no  se  dispone  de 
informacion  adicional,  como  la  indicada  en  las  figuras  19.lt/  o  e.  Pero  suponga  que  se  considera 
el  siguiente  modelo  de  demanda  y  oferta: 

Funcion  de  demanda'.  Q,  —  a o  +  (X\  Pt  +  aif  +  U\t  a\  <  0,  <*2  >  0  (19.2.12) 

Funcion  de  oferta'.  Qt  —  fio  +  /> i  P,  +  ui,  >  0  (19.2.13) 

donde  /  =  ingreso  del  consumidor,  una  variable  exogena,  y  todas  las  demas  variables  como  se 
definieron  anteriormente. 

Observe  que  la  unica  diferencia  entre  el  modelo  anterior  y  el  modelo  original  de  demanda  y 
oferta  es  que  hay  una  variable  adicional  en  la  funcion  de  demanda,  a  saber,  el  ingreso.  De  la  teoria 
economica  de  la  demanda  se  sabe  que  el  ingreso  es,  por  lo  general,  un  determinante  importante 
de  la  demanda  de  la  mayoria  de  bienes  y  servicios.  Por  consiguiente,  su  inclusion  en  la  fun¬ 
cion  de  demanda  proporcionara  informacion  adicional  sobre  el  comportamiento  del  consumidor. 
Para  la  mayoria  de  los  bienes  se  espera  que  el  ingreso  tenga  un  efecto  positivo  sobre  el  consumo 
(<*2  >  0). 
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A1  utilizar  el  mecanismo  de  nivelacion  del  mercado,  cantidad  demandada  =  cantidad  ofrecida, 
se  tiene: 


ao  +  a\Pt  +  ailt  +  u\t  —  Po  -P  Pi  Pt  +  nit  (19.2.14) 


A1  resolver  la  ecuacion  (19.2.14),  se  obtiene  el  siguiente  valor  de  equilibrio  de  P,\ 

P,  =  n0  +  n1/<+v(  (19.2.15) 

en  donde  los  coeficientes  en  la  forma  reducida  son 


n„ 


Pa  ~  «p 
«i  -  Pi 


a2 


«i  -  Pi 


(19.2.16) 


y 


Uit  U\t 

vt  = - 

ai  -  Pi 

A1  sustituir  el  valor  de  equilibrio  de  P,  en  la  funcion  de  demanda  u  oferta  anterior,  se  obtiene  la 
siguiente  cantidad  de  equilibrio: 

Qt  =  n2  +  n3/,  +  w,  (19.2.17) 

en  donde 


y 


n2 


aiPo  -  a0p i 

«i  -  Pi 


n3  =- 


aiPi 
«i  -  P\ 


wt 


aiuit  -  P\u\, 

ai  -  Pi 


(19.2.18) 


Puesto  que  las  ecuaciones  (19.2.15)  y  (19.2.17)  son  ecuaciones  en  forma  reducida,  puede 
aplicarse  el  metodo  de  MCO  para  estimar  sus  parametros.  Ahora  bien,  el  modelo  de  demanda 
y  oferta  (19.2.12)  y  (19.2.13)  contiene  cinco  coeficientes  estructurales  — ao,  ai,  a2,  Po,  y  P\ — , 
pero  solo  se  dispone  de  cuatro  ecuaciones  para  estimarlos,  a  saber,  los  cuatro  coeficientes  en 
forma  reducida  flo,  n i,  fl2  y  dados  en  las  ecuaciones  (19.2.16)  y  (19.2.18).  Por  tanto,  no 
es  posible  encontrar  una  solucion  unica  para  todos  los  coeficientes  estructurales.  Sin  embargo, 
puede  mostrarse  con  facilidad  que  los  parametros  de  la  funcion  de  oferta  pueden  ser  identificados 
(estimados)  porque 


Po  —  n2  —  PiU0 


Pi 


Hi 


(19.2.19) 


Pero  no  hay  una  forma  unica  de  estimar  los  parametros  de  la  funcion  de  demanda;  por  consi- 
guiente,  esta  permanece  subidentificada.  A  proposito,  observe  que  el  coeficiente  estructural  fi\ 
es  una  funcion  no  lineal  de  los  coeficientes  en  forma  reducida,  lo  cual  crea  algunos  problemas 
cuando  se  trata  de  estimar  el  error  estandar  del  P\  estimado,  como  se  vera  en  el  capitulo  20. 

Para  verificar  que  la  funcion  de  demanda  (19.2.12)  no  puede  ser  identificada  (estimada),  mul- 
tiplique  esta  por  /.  (0  <  a  <  1)  y  la  (19.2.13)  por  1  —  X,  y  luego  sume  para  obtener  la  siguiente 
ecuacion  “hibrida”: 


Qt  —  Ko  +  YiPt  +  Yih  +  Wt 


(19.2.20) 
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en  donde 


Yo  —  Xao  +  ( 1  —  X)Po 

Yi  =kai  +(1  -X)pi  (19.2.21) 

Y2  — 

y 

wt  —  Xu  i,  +  ( 1  —  X)u2t 

La  ecuacion  (19.2.20)  es,  a  partir  de  la  observation,  indistinguible  de  la  funcion  de  demanda 
(19.2.12),  aunque  si  es  distinguible  de  la  funcion  de  oferta  (19.2.13),  que  no  contiene  la  variable 
/  como  una  variable  explicativa.  Por  tanto,  la  funcion  de  demanda  permanece  sin  identificar. 

Observe  un  hecho  interesante:  ;es  la  presencia  de  una  variable  adicional  en  la  funcion  de 
demanda  la  que  permite  identificar  la  funcion  de  oferta!  /,Por  que?  La  inclusion  de  la  variable 
ingreso  en  la  ecuacion  de  demanda  proporciona  alguna  informacion  adicional  sobre  la  variabili- 
dad  de  la  funcion,  como  lo  indica  la  figura  19 Ad).  La  figura  muestra  como  la  intersection  de  la 
curva  estable  de  oferta  con  la  curva  de  demanda  en  movimiento  (debido  a  cambios  en  el  ingreso) 
permite  trazar  (identificar)  la  curva  de  oferta.  Como  se  mostrara  en  breve,  con  mucha  frecuencia 
la  posibilidad  de  identificar  una  ecuacion  depende  de  si  excluye  una  o  mas  variables  que  estan 
incluidas  en  otras  ecuaciones  del  modelo. 

Pero  suponga  que  se  considera  el  siguiente  modelo  de  demanda  y  oferta: 

Funcion  de  demanda'.  Qt  —  a o  +  oq P,  +  a.2 It  +  U\t  a x  <  0,  a2  >  0 

(19.2.12) 

Funcion  de  oferta :  Qt  —  P o  +  Pi Pt  +  PiPt-\  +  U2t  ySi  >  0,  /02  >  0 

(19.2.22) 

donde  la  funcion  de  demanda  permanece  igual  que  antes  pero  la  funcion  de  oferta  incluye  una  va¬ 
riable  explicativa  adicional,  el  precio  que  esta  rezagado  un  periodo.  La  funcion  de  oferta  postula 
que  la  cantidad  de  un  bien  ofrecido  depende  de  su  precio  actual  y  del  precio  del  periodo  anterior, 
un  modelo  frecuentemente  utilizado  para  explicar  la  oferta  de  muchos  bienes  agricolas.  Observe 
que  P,- 1  es  una  variable  predeterminada  porque  su  valor  se  conoce  en  el  tiempo  t. 

Por  el  mecanismo  de  nivelacion  del  mercado  se  tiene  que 

ao  +  ot\Pt  +  Q!2?r  +  Uu  —  Po  +  P\Pt  +  P2P t-\  +  U2t  (19.2.23) 

A1  resolver  esta  ecuacion  se  obtiene  el  siguiente  precio  de  equilibrio: 

p,  =  n0  +  nxit  +  n2Pt-\  +  vt  (19.2.24) 


en  donde 


Flo 


Po  ~  «o 
«i  -  Pi 


n, 


n2 


«  2 

«1  -  P\ 
Pi 

“1  -  Pi 


U2t  ~  Hu 

«1  -  Pi 


(19.2.25) 
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A1  sustituir  el  precio  de  equilibrio  en  la  ecuacion  de  demanda  o  en  la  de  oferta  se  obtiene  la 
correspondiente  cantidad  de  equilibrio: 


Qt  —  n3  +  n4i,  +  n5Jp,-i  +  wt 


(19.2.26) 


en  donde  los  coeficientes  en  la  forma  reducida  son 


&iPo  ~  oioPi 


(19.2.27) 


y 


a\U2t  ~  P\u\t 


El  modelo  de  demanda  y  oferta  dado  en  las  ecuaciones  (19.2.12)  y  (19.2.22)  contiene  seis 
coeficientes  estructurales  — a0,  a\,  a2,  Po,  Pi  y  P2 — ,  y  hay  seis  coeficientes  en  la  forma  reducida 
— n0,  n x,  n2,  n3,  n4  y  n5 —  para  estimarlos.  Asi,  se  tienen  seis  ecuaciones  con  seis  incognitas 
y  normalmente  es  posible  obtener  estimaciones  unicas.  Por  consiguiente,  tanto  los  parametros  de 
ambas  ecuaciones,  de  demanda  y  de  oferta,  como  el  sistema  en  su  totalidad  pueden  ser  identifica- 
dos.  (En  el  ejercicio  19.2  se  pide  al  lector  expresar  los  seis  coeficientes  estructurales  en  terminos 
de  los  seis  coeficientes  en  su  forma  reducida  dados  anteriormente,  para  mostrar  que  la  estimation 
unica  del  modelo  es  posible.) 

Para  verificar  que  las  funciones  de  demanda  y  oferta  anteriores  son  identificables,  se  puede 
recurrir  tambien  al  mecanismo  de  multiplicar  la  ecuacion  de  demanda  (19.2.12)  por  /-  (0  <  /.  < 
1)  y  la  funcion  de  oferta  (19.2.22)  por  1  —  A,  y  luego  sumarlas  para  obtener  una  ecuacion  hibrida. 
Dicha  ecuacion  tendra  las  variables  predeterminadas  I,  y  Pt~\,  por  tanto,  esta  sera  una  ecuacion 
por  observation  diferente  tanto  de  la  ecuacion  de  demanda  como  tambien  de  la  ecuacion  de 
oferta  porque  la  primera  no  contiene  a  Pt_  \  y  la  ultima  no  contiene  a  I,. 

Sobreidentificacion 

Para  ciertos  bienes  y  servicios,  el  ingreso,  al  igual  que  la  riqueza  del  consumidor,  es  un  determi- 
nante  importante  de  la  demanda.  Por  consiguiente,  al  modificar  la  funcion  de  demanda  (19.2.12) 
como  se  muestra  a  continuacion,  y  manteniendo  la  funcion  de  oferta  como  antes,  se  obtiene: 

Funcion  de  demanda:  Qt  —  ao  +  a\P,  +  a2It  +  +  «n  (19.2.28) 


(19.2.22) 


Funcion  de  oferta :  Qt  —  Po  +  Pi  Pt  +  PiPt- 1  +  «2 1 


en  donde,  adicionalmente  a  las  variables  ya  definidas,  R  representa  la  riqueza;  para  la  mayoria  de 
los  bienes  y  servicios  se  espera  que  la  riqueza,  al  igual  que  el  ingreso,  tenga  un  efecto  positivo 
sobre  el  consumo. 

Al  igualar  la  demanda  a  la  oferta,  se  obtiene  el  siguiente  precio  y  la  siguiente  cantidad  de 
equilibrio: 


pt  =  rio  +  rii  it  +  ri2f?i  +  n3p,_!  +  vt 

Qt  —  n4  +  n5it  +  n6«,  +  Y\2Pt~\  +  wt 


(19.2.29) 

(19.2.B0) 
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en  donde 


n0 

n2 

n4 

n6 


w, 


Po  —  “o 

ot\  -  /Si 

«3 

a  1  -  /Si 
q?i/6q  -  ag/Si 
ai  -  Pi 
«3/Si 
ai  -  Pi 
&\u2t  ~  P\U\t 
ai  -  /Si 


ni 

n3 

n5 

n7 


V/ 


«2 

«1  -  /Si 

ai  -  /Si 
«2/Sl 

ai  -  /Si 

« 1/S2 

«i  -  ^1 

«2r  —  «lr 

ai  -  Pi 


(19.2.31) 


El  anterior  modelo  de  demanda  y  oferta  contiene  siete  coeficientes  estructurales,  pero  hay 
ocho  ecuaciones  para  estimarlos:  los  ocho  coeficientes  en  forma  reducida  dados  en  (19.2.31); 
es  decir,  el  numero  de  ecuaciones  es  mayor  que  el  numero  de  incognitas.  Como  resultado,  no  es 
posible  obtener  una  estimacion  unica  de  todos  los  parametros  del  modelo,  lo  cual  puede  demos- 
trarse  facilmente.  De  los  anteriores  coeficientes  en  la  forma  reducida  se  puede  obtener 


o 


(19.2.32) 


/Si 


ns 

ni 


(19.2.33) 


es  decir,  hay  dos  estimaciones  del  coeficiente  de  precios  en  la  funcion  de  oferta  y  no  hay  garantia 
de  que  estos  dos  valores  o  soluciones  sean  identicos.4  Ademas,  puesto  que  Pi  aparece  en  los  de- 
nominadores  de  todos  los  coeficientes  en  su  forma  reducida,  la  ambiguedad  en  la  estimacion  de 
Pi  sera  transmitida  tambien  a  las  demas  estimaciones. 

<,Por  que  fue  posible  identificar  la  funcion  de  oferta  en  el  sistema  (19.2.12)  y  (19.2.22)  pero 
no  en  el  sistema  (19.2.28)  y  (19.2.22),  siendo  que  en  ambos  casos  la  funcion  de  oferta  perma- 
nece  igual?  La  respuesta  es  porque  se  tiene  demasiada  informacion  para  identificar  la  curva  de 
oferta.  Esta  situacion  es  la  opuesta  al  caso  de  subidentificacion,  donde  hay  muy  poca  informa¬ 
cion.  El  exceso  de  informacion  resulta  del  hecho  de  que  en  los  modelos  (19.2.12)  y  (19.2.22),  la 
exclusion  de  la  variable  ingreso  de  la  funcion  de  oferta  fue  suficiente  para  identificarla,  pero  en 
los  modelos  (19.2.28)  y  (19.2.22)  la  funcion  de  oferta  excluye  no  solamente  la  variable  ingreso, 
sino  tambien  la  variable  riqueza.  En  otras  palabras,  en  el  ultimo  modelo  se  impusieron  “muchas” 
restricciones  sobre  la  funcion  de  oferta  al  requerir  excluir  mas  variables  de  las  necesarias  para 
identificarla;  sin  embargo,  esta  situacion  no  implica  que  la  sobreidentificacion  necesariamente 
sea  mala.  En  el  capltulo  20  se  vera  la  forma  de  manejar  el  problema  de  tener  mucha  informacion 
o  muchas  restricciones. 

Ya  se  han  examinado  exhaustivamente  todos  los  casos.  Como  muestra  la  exposition  anterior, 
una  ecuacion  en  un  modelo  de  ecuaciones  simultaneas  puede  estar  subidentificada  o  identificada 
(ya  sea  sobreidentificada  o  exactamente  identificada).  El  modelo  como  un  todo  esta  identificado 
si  cada  una  de  sus  ecuaciones  tambien  lo  esta.  Para  asegurar  la  identificacion,  se  acude  a  las 
ecuaciones  en  forma  reducida.  En  la  seccion  19.3  se  considera  un  metodo  alterno  y  posiblemente 
menos  laborioso  para  determinar  si  una  ecuacion  en  un  modelo  de  ecuaciones  simultaneas  esta 
identificada  o  no. 


4  Observe  la  diferencia  entre  la  subidentificacion  y  la  sobreidentificacion.  En  el  primer  caso  es  imposible  ob¬ 
tener  estimaciones  de  los  parametros  estructurales,  en  tanto  que  en  el  segundo  puede  haber  varias  estima¬ 
ciones  de  uno  o  mas  coeficientes  estructurales. 
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19.3  Reglas  para  la  identificacion 


Como  lo  indican  los  ejemplos  en  la  seccion  19.2,  en  principio  es  posible  recurrir  a  las  ecuaciones 
en  forma  reducida  para  determinar  la  identificacion  de  una  ecuacion  en  un  sistema  de  ecuaciones 
simultaneas.  Pero  los  ejemplos  tambien  muestran  que  este  proceso  puede  llegar  a  ser  muy  dis- 
pendioso  y  laborioso.  Por  fortuna,  no  es  indispensable  utilizar  este  procedimiento.  Las  llamadas 
condiciones  de  orden  y  de  rango  de  identificacion  aligeran  la  labor,  proporcionando  una  rutina 
sistematica. 

Para  entender  las  condiciones  de  orden  y  de  rango,  se  introduce  la  siguiente  notacion: 

M  =  niimcro  de  variables  endogenas  en  el  modelo. 
m  =  numero  de  variables  endogenas  en  una  ecuacion  dada. 

K  =  numero  de  variables  predeterminadas  en  el  modelo,  incluyendo  el  intercepto. 
k  =  numero  de  variables  predeterminadas  en  una  ecuacion  dada. 

Condicion  de  orden  para  la  identificacion5 

Una  condicion  necesaria  (pero  no  suficiente)  para  la  identificacion,  conocida  como  la  condicion 
de  orden,  puede  expresarse  en  dos  formas  diferentes  pero  equivalentes,  de  la  siguiente  manera 
(las  condiciones  necesaria  y  suficiente  para  la  identificacion  se  presentan  mas  adelante): 

Definition  19.1 

En  un  modelo  de  M  ecuaciones  simultaneas,  para  que  una  ecuacion  este  identificada  debe  ex- 
cluir  al  menos  M  —  1  variables  (endogenas  y  predeterminadas)  que  aparecen  en  el  modelo.  Si 
excluye  exactamente  M  —  1  variables,  la  ecuacion  esta  exactamente  identificada.  Si  excluye  mas 
de  M  —  1  variables,  estara  sobreidentificada. 

Definition  19.2 

En  un  modelo  de  M  ecuaciones  simultaneas,  para  que  una  ecuacion  este  identificada,  el  numero 
de  variables  predeterminadas  excluidas  de  esa  ecuacion  no  debe  ser  menor  que  el  numero  de 
variables  endogenas  incluidas  en  la  ecuacion  menos  1,  es  decir, 

K-k>m-  1  (19.3.1) 

Si/C  —  Ac=/tj  —  1,  la  ecuacion  esta  exactamente  identificada,  pero  si/C  —  k  >  m  —  1,  estara  so¬ 
breidentificada. 

En  el  ejercicio  19.1  se  pide  al  lector  demostrar  que  las  dos  definiciones  anteriores  son  equiva¬ 
lentes. 

Para  ilustrar  la  condicion  de  orden,  considere  de  nuevo  los  ejemplos  anteriores. 

EJEMPLO  19.1 

Funcion  de  demanda:  Qdt  =  ao+  “iPf  +  Uit  (18.2.1) 

Funcion  de  oferta:  Qst  =  f}0+  /q  Pt  +  u2t  (18.2.2) 

Este  modelo  tiene  dos  variables  endogenas  Py  Qy  no  tiene  variables  predeterminadas.  Para  ser 
identificadas  cada  una  de  estas  ecuaciones  debe  excluir  por  lo  menos  M  —  1=1  variable.  Puesto 
que  este  no  es  el  caso,  ninguna  ecuacion  esta  identificada. 

EJEMPLO  19.2 

Funcion  de  demanda:  Qd  =  a0  +  a?i  Pt  +  a2lt  +  «i  t  (19.2.12) 

Funcion  de  oferta:  Qst  =  do+  /Si  Pt  +  w2t  (19.2.13) 

En  este  modelo,  Qy  P  son  endogenas  e  /  es  exogena.  Al  aplicar  la  condicion  de  orden  dada  en 
(1 9.3.1),  se  observa  que  la  funcion  de  demanda  no  esta  identificada.  Por  otra  parte,  la  funcion  de 
oferta  esta  exactamente  identificada  porque  excluye  de  manera  estricta  M  —  ']  =  ~\  variable  lt. 

5  El  termino  orden  se  refiere  al  orden  de  una  matriz,  es  decir,  el  numero  de  filas  y  de  columnas  que  con- 
tiene.  Vease  el  apendice  B. 
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EJEMPLO  19.3  Funcion  de  demanda:  Qf  =  cto+ cc\Pt  +  a2lt  +  u-\t  (19.2.12) 

Funcion  de  oferta:  Qst  =  p0+  ^pt  +  +  u2t  (19.2.22) 

Dado  que  Pt  y  Qtson  endogenas  e  lty  Pt_ i  son  predeterminadas,  la  ecuacion  (19.2.12)  excluye 
exactamente  una  variable  Pt-i  y  la  ecuacion  (19.2.22)  hace  lo  mismo  con  una  variable  lt.  Por 
tanto,  cada  ecuacion  esta  identificada  segun  la  condicion  de  orden.  Asf,  el  modelo  considerado 
como  un  todo  tambien  esta  identificado. 


EJEMPLO  19.4  Funcion  de  demanda:  Q1?  =  or0+ a-\Pt  +  a2lt  +  aiRt  +  u-\t  (19.2.28) 

Funcion  de  oferta:  Qst  =  Po+  ji-\Pt  +  p2Pt- 1  +  u2t  (19.2.22) 

En  este  modelo  Pt  y  Qt  son  endogenas  e  lt/  Rt  y  Pt_i  son  predeterminadas.  La  funcion  de  de¬ 
manda  excluye  exactamente  una  variable  Pt_ i  y,  por  tanto,  segun  la  condicion  de  orden,  esta 
exactamente  identificada.  Pero  la  funcion  de  oferta  excluye  dos  variables  lt  y  Rt,  y  se  dice  enton- 
ces  que  esta  sobreidentificada.  Como  se  menciono,  en  este  caso  hay  dos  formas  de  estimar  /b, 
el  coeficiente  de  la  variable  precio. 

Aquf  se  observa  una  ligera  complicacion.  Segun  la  condicion  de  orden,  la  funcion  de  de¬ 
manda  esta  identificada.  Pero  si  se  trata  de  estimar  los  parametros  de  esta  ecuacion  a  partir  de 
los  coeficientes  en  forma  reducida  dados  en  (19.2.31),  las  estimaciones  no  seran  unicas  porque 
fit,  que  forma  parte  de  los  calculos,  toma  dos  valores,  y  es  preciso  decidir  cual  es  el  apropiado. 
Esta  complicacion  puede  obviarse  porque,  como  se  muestra  en  el  capftulo  20,  en  casos  de 
sobreidentificacion  el  metodo  de  mfnimos  cuadrados  indirectos  no  es  apropiado  y  debe  des- 
cartarse  en  favor  de  otros  metodos.  Uno  de  esos  metodos  es  el  de  mfnimos  cuadrados  en  dos 
etapas,  el  cual  se  estudiara  detalladamente  en  el  capftulo  20. 


Como  lo  indican  los  ejemplos  anteriores,  la  identificacion  de  una  ecuacion  en  un  modelo 
de  ecuaciones  simultaneas  es  posible  si  dicha  ecuacion  excluye  una  o  mas  variables  que  estan 
presentes  en  otras  partes  del  modelo.  Esta  situacion  se  conoce  como  criterio  de  exclusion  (de 
variables),  o  criterio  de  cero  restricciones  (se  supone  que  los  coeficientes  de  las  variables  que 
no  aparecen  en  una  ecuacion  tienen  valor  de  cero).  Este  criterio  es  el  mas  utilizado  para  asegurar 
o  determinar  la  identificacion  de  una  ecuacion.  Observe  que  el  criterio  de  cero  restricciones  esta 
basado  en  expectativas  a  priori  o  teoricas  acerca  de  la  ausencia  de  ciertas  variables  en  una  ecua¬ 
cion  dada.  Depende  del  investigador  senalar  claramente  la  razon  por  la  cual  espera  que  ciertas 
variables  aparezcan  en  algunas  ecuaciones  y  en  otras  no. 

Condicion  de  rango  para  la  identificacion6 

La  condicion  de  orden  analizada  anteriormente  es  una  condicion  necesaria  pero  no  suficiente 
para  la  identificacion;  es  decir,  aun  si  se  cumple,  puede  suceder  que  una  ecuacion  no  este  identi¬ 
ficada.  Asf,  en  el  ejemplo  19.2,  la  ecuacion  de  oferta  fue  identificada  por  la  condicion  de  orden 
porque  excluyo  la  variable  ingreso  I,,  la  cual  aparecia  en  la  funcion  de  demanda.  Pero  la  iden¬ 
tificacion  se  logra  solamente  si  a2,  el  coeficiente  de  I,  en  la  funcion  de  demanda,  no  es  cero,  es 
decir,  si  la  variable  ingreso  en  verdad  forma  parte  de  la  funcion  de  demanda,  no  solo  en  forma 
probable,  sino  real. 

En  terminos  mas  generales,  aun  si  una  ecuacion  cumple  la  condicion  de  orden K  —  k>m  —  1 , 
puede  no  estar  identificada  porque  las  variables  predeterminadas  excluidas  de  esa  ecuacion,  pero 
presentes  en  el  modelo,  quiza  no  todas  sean  independientes  de  manera  que  tal  vez  no  exista  una 
correspondencia  uno  a  uno  entre  los  coeficientes  estructurales  (las  (i)  y  los  coeficientes  en  forma 


6  El  termino  rango  se  refiere  al  rango  de  una  matriz  y  esta  dado  por  la  matriz  cuadrada  de  maximo  rango 
(contenida  en  la  matriz  dada)  cuyo  determinante  sea  diferente  de  cero.  De  manera  alterna,  el  rango  de  una 
matriz  es  el  numero  maximo  de  filas  o  de  columnas  linealmente  independientes  de  dicha  matriz.  Vease  el 

apendice  B. 
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reducida  (las  n).  O  sea,  probablemente  no  sea  posible  estimar  los  parametros  estructurales  a 
partir  de  los  coeficientes  en  la  forma  reducida,  como  se  mostrara  en  breve.  Por  consiguiente,  se 
requiere  una  condicion  que  sea  tanto  necesaria  como  suficiente  para  la  identificacion.  Esta  es  la 
condicion  de  rango  para  la  identificacion,  la  cual  puede  expresarse  en  los  siguientes  terminos: 


Condicion  de 
rango  para  la 
identificacion 


En  un  modelo  que  contiene  M  ecuaciones  en  M  variables  endogenas,  una  ecuacion  esta  iden- 
tificada  si  y  solo  si  puede  construirse  por  lo  menos  un  determinante  diferente  de  cero,  de  orden 
( M  —  1  )(A4  —  1),  a  partir  de  los  coeficientes  de  las  variables  (endogenas  y  predeterminadas)  ex- 
cluidas  de  esa  ecuacion  particular,  pero  incluidas  en  las  otras  ecuaciones  del  modelo. 


Como  ilustracion  de  la  condicion  de  rango  para  la  identificacion,  considere  el  siguiente  sis- 
tema  hipotetico  de  ecuaciones  simultaneas,  en  el  cual  las  variables  Y  son  endogenas  y  las  varia¬ 
bles  X  son  predeterminadas.7 

Y\t  —  (bo  —  PnYit  —  PnYn  —  y\\X\t  =«k 

(19.3.2) 

Ylt  ~  (*20  ~  P23Y3 1  ~  P'21  X\t  —  Y22^2t  =  u2 1 

(19.3.3) 

Yit  ~  (bo  ~  PnYit  —  Y2\X\t  —  Y32X21  —  un 

(19.3.4) 

Yfy  ~  /I40  —  041  Y\t  —  ^42^21  —  /43^3c  =  U4, 

(19.3.5) 

Para  facilitar  la  identificacion,  se  escribe  el  sistema  anterior  en  la  tabla  19.1,  que  se  explica  por 
si  misma. 

Primero  se  aplica  la  condicion  de  orden  para  la  identificacion,  como  se  muestra  en  la  tabla 
19.2.  Cada  ecuacion  esta  identificada  por  la  condicion  de  orden.  Verifique  esto  con  la  condi¬ 
cion  de  rango.  Considere  la  primera  ecuacion,  que  excluye  las  variables  >4,  X2  y  2C,  (esta  exclu¬ 
sion  esta  representada  por  los  ceros  en  el  primer  renglon  de  la  tabla  19. 1 ).  Para  que  esta  ecuacion 
este  identificada,  se  debe  obtener  por  lo  menos  un  determinante  diferente  de  cero  de  orden 


TABLA  19.1 


Coeficientes  de  las  variables 


Num.  de  ecuacion 

1 

Pi 

Y2 

Ps 

P4 

*1 

*2 

*3 

(19.3.2) 

—(bo 

1 

— Pm 

—  (*13 

0 

-K11 

0 

0 

(19.3.3) 

— P20 

0 

1 

—  (*23 

0 

—  P'21 

—  P'22 

0 

(19.3.4) 

—(bo 

— (bi 

0 

1 

0 

—  P'31 

—  P’32 

0 

(19.3.5) 

— (bo 

—  (1 41 

—  (*42 

0 

1 

0 

0 

—P’43 

TABLA  19.2 


Num.  de  ecuacion 

Num.  de  variables 
predeterminadas  excluidas 
( K-k ) 

Num.  de  variables 
endogenas  incluidas 
menos  uno,  (m  —  1) 

^Identificadas? 

(19.3.2) 

2 

2 

Exactamente 

(19.3.3) 

1 

1 

Exactamente 

(19.3.4) 

1 

1 

Exactamente 

(19.3.5) 

2 

2 

Exactamente 

7  El  sistema  de  ecuaciones  simultaneas  expuesto  en  las  ecuaciones  (19.1.1)  puede  presentarse  en  la  siguiente 
forma  alterna,  que  puede  ser  conveniente  para  el  manejo  matricial. 
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3  x  3,  a  partir  de  los  coeficientes  de  las  variables  excluidas  de  esta  ecuacion,  pero  incluidas 
en  otras.  Para  conseguir  el  determinante,  se  obtiene  primero  la  matriz  relevante  de  los  coeficien¬ 
tes  de  las  variables  Z*,  Xi  y  X3  incluidas  en  las  otras  ecuaciones.  En  el  presente  caso,  solamente 
hay  una  matriz  como  esa,  llamada  A,  definida  de  la  siguiente  manera: 


A  = 


-0 

0 

.1 


~  K22 

—  K32 

0 


0  - 
0 

— /43  - 


(19.3.6) 


Se  puede  ver  que  el  determinante  de  esta  matriz  es  cero: 


det  A  = 


0 

0 

1 


—  K22 

—  K32 

0 


0 

0 

— /43 


(19.3.7) 


Puesto  que  el  determinante  es  cero,  el  rango  de  la  matriz  (19.3.6),  denotado  por  p(A),  es  menor 
que  3.  Por  consiguiente,  la  ecuacion  ( 19.3.2)  no  satisface  la  condicion  de  rango  y,  por  tanto,  no 
esta  identificada. 

Como  se  anoto,  la  condicion  de  rango  es  tanto  necesaria  como  suficiente  para  la  identifica- 
cion.  Por  consiguiente,  a  pesar  de  que  la  condicion  de  orden  muestra  que  la  ecuacion  (19.3.2) 
esta  identificada,  la  condicion  de  rango  muestra  que  no  lo  esta.  A1  parecer,  las  columnas  o  los 
renglones  de  la  matriz  A  dadas  en  (19.3.6)  no  son  (linealmente)  independientes,  lo  que  significa 
que  hay  alguna  relacion  entre  las  variables  Y4,  X2  y  A3.  Como  resultado,  puede  no  haber  suficiente 
informacion  para  estimar  los  parametros  de  la  ecuacion  (19.3.2);  para  el  rnodelo  anterior,  las 
ecuaciones  en  forma  reducida  mostraran  que  no  es  posible  obtener  los  coeficientes  estructurales 
de  esa  ecuacion  a  partir  de  los  coeficientes  en  la  forma  reducida.  El  lector  debe  verificar  que, 
mediante  la  condicion  de  rango,  las  ecuaciones  (19.3.3)  y  (19.3.4)  tampoco  estan  identificadas, 
mientras  que  la  ecuacion  (19.3.5)  si  lo  esta. 

Como  lo  muestra  el  analisis  anterior,  la  condicion  de  rango  dice  si  la  ecuacion  bajo  conside- 
racion  esta  identificada  o  no,  en  tanto  que  la  condicion  de  orden  expresa  si  dicha  ecuacion  esta 
exactamente  identificada  o  sobreidentificada. 

Para  aplicar  la  condicion  de  rango,  puede  procederse  de  la  siguiente  manera: 

1.  Escriba  el  sistema  en  forma  tabular,  como  aparece  en  la  tabla  19.1. 

2.  Elimine  los  coeficientes  del  renglon  en  el  cual  aparece  la  ecuacion  bajo  consideracion. 

3.  Elimine  tambien  las  columnas  que  corresponden  a  aquellos  coeficientes  del  punto  2  que  son 
diferentes  de  cero. 

4.  Los  datos  que  quedan  en  la  tabla  corresponden  unicamente  a  los  coeficientes  de  las  variables 
incluidas  en  el  sistema  pero  no  en  la  ecuacion  bajo  consideracion.  Con  estos  datos,  forme 
todas  las  matrices  posibles,  en  este  caso  A,  de  orden  M  —  1  y  obtenga  los  determinantes 
correspondientes.  Si  es  posible  encontrar  al  menos  un  determinante  diferente  de  cero,  la  ecua¬ 
cion  en  cuestion  estara  identificada  (en  forma  exacta  o  sobreidentificada).  El  rango  de  la  ma¬ 
triz,  por  ejemplo  A,  en  este  caso,  es  exactamente  igual  atf  -  1.  Si  todos  los  determinantes 
posibles  (M  —  1  ){M  —  1 )  son  cero,  el  rango  de  la  matriz  A  es  menor  que  M  —  1  y  la  ecuacion 
bajo  investigation  no  esta  identificada. 

El  estudio  de  las  condiciones  de  orden  y  de  rango  para  la  identificacion  conduce  a  los  si- 
guientes  principios  generales  de  identificabilidad  de  una  ecuacion  estructural  en  un  sistema  de  M 
ecuaciones  simultaneas: 


1 .  SiK  —  k>  m  —  1  y  el  rango  de  matriz  A  es  M  —  1,  la  ecuacion  esta  sobreidentificada. 

2.  Si  K  —  k  =  m  —  1  y  el  rango  de  matriz  A  es  M  —  1,  la  ecuacion  esta  exactamente  identi¬ 
ficada. 

3.  Si  K  —  k  >  m  —  1  y  el  rango  de  la  matriz  A  es  menor  que  M  —  1,  la  ecuacion  esta  sub- 
identificada. 

4.  Si  K  —  k  <  m  —  1,  la  ecuacion  estructural  no  esta  identificada.  El  rango  de  la  matriz  A  en 
este  caso  debe  ser  menor  que  M  —  1 .  (iPor  que?) 
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En  adelante,  cuando  se  hable  de  identificacion,  debe  entenderse  identification  exacta  o  sobre- 
identificacion.  No  tiene  sentido  considerar  ecuaciones  no  identificadas  o  subidentificadas  puesto 
que,  no  importa  que  tan  completa  sea  la  information,  los  parametros  estructurales  no  pueden  ser  es- 
timados.  Sin  embargo,  como  se  muestra  en  el  capitulo  20,  es  posible  identificar  los  parametros  de  las 
ecuaciones  sobreidentificadas  al  igual  que  aquellos  de  las  ecuaciones  exactamente  identificadas. 

pGual  condition  se  debe  utilizar  en  la  practical  orden  o  rango?  Para  modelos  grandes  de  ecua¬ 
ciones  simultaneas,  la  aplicacion  de  la  condicion  de  rango  es  una  labor  muy  dispendiosa.  Por 
consiguiente,  como  afirma  Harvey: 

Por  fortuna,  la  condicion  de  orden  por  lo  general  es  suficiente  para  asegurar  la  identificacion,  y  aun- 
que  es  importante  tener  conciencia  de  la  condicion  de  rango,  la  no  verification  de  su  cumplimiento 
raramente  resultara  en  un  desastre.8 

*19.4  Prueba  de  simultaneidad9 


Si  no  hay  ecuaciones  simultaneas,  o  presencia  del  problema  de  la  simultaneidad,  MCO  produ- 
cen  estimadores  consistentes  y  eficientes.  Por  otra  parte,  si  hay  simultaneidad,  los  estimadores 
de  MCO  no  son  ni  siquiera  consistentes.  Como  se  mostrara  en  el  capitulo  20,  en  presencia  de 
simultaneidad,  los  metodos  de  minimos  cuadrados  en  dos  etapas  (MC2E)  y  de  variables  ins- 
trumentales  (VI)  produciran  estimadores  consistentes  y  eficientes.  Extranamente,  si  se  aplican 
metodos  alternos  cuando  de  hecho  no  hay  simultaneidad,  estos  producen  estimadores  que  son  con¬ 
sistentes  pero  no  eficientes  (es  decir,  con  menor  varianza).  Todo  este  analisis  sugiere  que  se  debe 
verificar  la  presencia  del  problema  de  la  simultaneidad  antes  de  descartar  los  MCO  en  favor  de 
las  alternativas. 

Como  se  mostro,  el  problema  de  la  simultaneidad  surge  porque  algunas  de  las  regresoras  son 
endogenas  y,  por  consiguiente,  es  probable  que  esten  correlacionadas  con  el  termino  de  perturba¬ 
tion  o  de  error.  Asi,  en  una  prueba  de  simultaneidad,  se  intenta  averiguar  si  una  regresora  (una 
endogena)  esta  correlacionada  con  el  termino  de  error.  Si  lo  esta,  existe  el  problema  de  simul¬ 
taneidad,  en  cuyo  caso  deben  encontrarse  alternativas  a  MCO;  si  no  lo  esta,  se  pueden  utilizar 
MCO.  Para  averiguar  cual  es  el  caso  en  una  situation  concreta,  se  puede  utilizar  la  prueba  del 
error  de  especificacion  de  Hausman. 

Prueba  de  especificacion  de  Hausman 

Una  version  de  esta  prueba,  que  puede  utilizarse  para  probar  la  presencia  del  problema  de  la 
simultaneidad,  se  explica  de  la  siguiente  rnanera.10 

Para  exponer  la  idea,  considere  el  siguiente  modelo  de  dos  ecuaciones: 

Funcion  de  demanda:  —  o/q  +  et\  P,  +  ci2lt  +  oi^Rt  +  u\t  (19.4.1) 

Funcion  de  oferta:  Qst  —  P o  +  Pi  Pt  +  u2t  (19.4.2) 

en  donde  P  =  precio 
Q  =  cantidad 
I  =  ingreso 
R  =  riqueza 
u  =  terminos  de  error 

Suponga  que  / y  R  son  exogenas.  Por  supuesto,  Py  Q  son  endogenas. 


*  Opcional. 

8  Andrew  Harvey,  The  Econometric  Analysis  of  Time  Series,  2a.  ed.,  The  MIT  Press,  Cambridge,  Mass.,  1 990, 
p.  328. 

9  El  siguiente  analisis  se  tomo  de  Robert  S.  Pindyck  y  Daniel  L.  Rubinfeld,  Econometric  Models  and  Economic 
Forecasts,  3a.  ed.,  McGraw-Hill,  Nueva  York,  1991,  pp.  303-305. 

10J.A.  Hausman,  "Specification  Tests  in  Econometrics",  Econometrica,  vol.  46,  noviembre  de  1976,  pp. 

1 251  -1 271 .  Vease  tambien  A.  Nakamura  y  M.  Nakamura,  "On  the  Relationship  among  Several  Specification 
Error  Tests  Presented  by  Durbin,  Wu  and  Hausman",  Econometrica,  vol.  49,  noviembre  de  1981,  pp.  1583- 
1588. 
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Ahora,  considere  la  funcion  de  oferta  (19.4.2).  Si  no  hay  problema  de  simultaneidad  (es  decir, 
P  y  Q  son  mutuamente  independientes),  entonces  P,  y  u2t  no  deben  estar  correlacionadas  (<,por 
que?).  Por  otra  parte,  si  hay  simultaneidad,  Pt  y  u2t  estaran  correlacionadas.  Para  averiguar  cual 
es  el  caso,  se  realiza  la  siguiente  prueba  de  Hausman: 

Primero,  de  (19.4.1)  y  (19.4.2)  se  obtienen  las  siguientes  ecuaciones  en  forma  reducida: 

Pt  —  Flo  +  TUI,  +  n2^,  +  v,  (19.4.3) 

Q,  =  n3  +  n  4/,  +  n5R,  +  w,  (19.4.4) 

en  donde  v  y  w  son  los  terminos  de  error  en  la  forma  reducida.  Si  se  estima  (19.4.3)  por  MCO, 
se  obtiene 

Pt  =  h0+fuit  +  fl2R,  (19.4.5) 

Por  consiguiente, 

Pt  =  Pt  +  v,  (19.4.6) 

en  donde  P,  son  estimaciones  de  P,  y  v,  son  los  residuos  estimados.  A1  sustituir  la  ecuacion 
(19.4.6)  en  la  ecuacion  (19.4.2),  se  obtiene 

Qt  —  Po  +  Pi  P t  +  PiVt  +  u.2t  (19.4.7) 

Nota:  Los  coeficientes  de  P,  y  de  vt  son  los  mismos.  La  diferencia  entre  esta  ecuacion  y  la  ecua¬ 
cion  original  de  oferta  es  que  incluye  la  variable  adicional  vt,  el  residuo  de  la  regresion  (19.4.3). 

Ahora,  bajo  la  hipotesis  nula  de  que  no  hay  simultaneidad,  la  correlation  entre  v,  y  u2,  debe 
ser  cero,  asintoticamente.  Asi,  si  se  efectua  la  regresion  (19.4.7)  y  se  encuentra  que  el  coeficiente 
de  v,  en  la  ecuacion  (19.4.7)  es  estadisticamente  cero,  puede  concluirse  que  no  hay  problema  de 
simultaneidad.  Por  supuesto,  esta  conclusion  se  invierte  si  se  encuentra  que  este  coeficiente  si  es 
estadisticamente  significativo.  De  paso,  observe  que  la  prueba  de  simultaneidad  de  Hausman  se 
conoce  tambien  como  la  prueba  de  endogeneidad  de  Hausman.  En  el  ejemplo  anterior  se  quiere 
averiguar  si  P,  es  endogena.  Si  es  asi,  se  tiene  el  problema  de  la  simultaneidad. 

En  esencia,  la  prueba  de  Hausman  comprende  los  siguientes  pasos: 

Paso  1.  Efectue  la  regresion  de  P,  sobre  I,  y  R,  para  obtener  v,. 

Paso  2.  Efectue  la  regresion  de  Q,  sobre  P,  y  v,  y  realice  una  prueba  t  sobre  el  coeficiente 
de  vt.  Si  este  es  significativo,  no  debe  rechazar  la  hipotesis  de  simultaneidad;  de  otra  forma, 
rechacela.11  Sin  embargo,  para  una  estimation  eficiente,  Pindyck  y  Rubinfeld  sugieren  hacer 
la  regresion  de  Q,  sobre  P,  y  v,.12 

Existen  otras  formas  de  aplicar  la  prueba  de  Hausman,  que  se  presentan  por  medio  de  un 
ejercicio. 


EJEMPLO  19.5 

Modelo  del  gasto 

Para  estudiar  el  comportamiento  del  gasto  gubernamental  de  Estados  Unidos  a 
local,  los  autores  desarrollaron  el  siguiente  modelo  de  ecuaciones  simultaneas: 

nivel  estatal  y 

publico  de  Pindyck- 

EXP  =  di  +  feAlD  +  ftINC  +  /S4POP  +  U; 

(19.4.8) 

Rubinfeld 13 

AID  =  <5i  +  <52EXP  +  53PS  +  v, 

en  donde  EXP  =  gasto  publico  de  los  gobiernos  estatal  y  local 

AID  =  nivel  de  ayuda  mediante  subsidio  federal 

INC  =  ingreso  de  los  estados 

POP  =  poblacion  estatal 

PS  =  poblacion  estudiantil  de  primaria  y  secundaria 
u  y  v  =  terminos  de  error 

En  este  modelo,  INC,  POP  y  PS  se  consideran  exogenas. 

(19.4.9) 

11  Si  hay  mas  de  una  regresora  endogena,  debera  utilizarse  la  prueba  F. 

12  Pindyck  y  Rubinfeld,  op.  cit.,  p.  304.  Nota:  La  regresora  es  Pt  y  no  Pt. 

13  Pindyck  y  Rubinfeld,  op.  cit.,  pp.  1 76-1 77.  La  notacion  ha  sido  ligeramente  alterada. 
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EJEMPLO  19.5 

(continuation) 

EXP  = -89.41  +  4.50AID+  0.0001  3INC-  0.518POP-  1.3  9w, 

f  =  (—1 .04)  (5.89)  (3.06)  (-4.63)  (-1.73)  (19.4.10)14 

R2  =  0.99 

Al  nivel  de  significancia  de  5%,  el  coeficiente  de  vv,  no  es  estadfsticamente  significativo  y,  por 
consiguiente,  a  este  nivel  no  hay  problema  de  simultaneidad.  Sin  embargo,  al  nivel  de  signifi¬ 
cancia  de  10%,  este  sf  es  estadfsticamente  significativo,  y  aumenta  la  posibilidad  de  que  exista 
el  problema  de  simultaneidad. 

A  proposito,  la  estimacion  MCO  de  la  ecuacion  (19.4.8)  es  la  siguiente: 

EXP  =  -46.81  +  3.24AID+  0.0001 9INC-  0.597POP 

t  =  (—0.56)  (13.64)  (8.12)  (-5.71)  (19.4.11) 

R2  =  0.993 

Se  puede  observar  una  caracterfstica  interesante  de  los  resultados  dados  en  las  ecuaciones 
(1 9.4.1 0)  y  (1 9.4.1 1):  cuando  la  simultaneidad  se  considera  de  manera  explfcita,  la  variable  AID 
es  menos  significativa,  aunque  numericamente  tiene  una  magnitud  mayor. 


Debido  a  la  posibilidad  de  que  existiera  simultaneidad  entre  EXP  y  AID,  los  autores  realizaron 
primero  la  regresion  de  AID  sobre  INC,  POP  y  PS  (es  decir,  la  regresion  en  forma  reducida).  Sea 
w,  el  termino  de  error  en  esta  regresion  y  vv,  el  residuo  calculado;  despues  los  autores  efectuaron 
la  regresion  de  EXP  sobre  AID,  INC,  POP  y  vv,,  para  obtener  los  siguientes  resultados: 


*19.5  Pruebas  de  exogeneidad 


Como  ya  se  dijo,  es  responsabilidad  del  investigador  especificar  cuales  variables  son  endogenas 
y  cuales  exogenas.  Esto  dependent  del  problema  en  cuestion  y  de  la  informacion  a  priori  de  la 
cual  se  disponga.  Pero,  (',cs  posible  desarrollar  una  prueba  estadlstica  de  exogeneidad,  al  estilo  de 
la  prueba  de  causalidad  de  Granger? 

La  prueba  de  Hausman,  analizada  en  la  seccion  19.4,  puede  utilizarse  para  responder  a  esta 
pregunta.  Suponga  que  se  tiene  un  modelo  de  tres  ecuaciones  con  tres  variables  endogenas,  Y\, 
Yi  y  L3,  y  que  hay  tres  variables  exogenas,  X\,  X2  y  TO,.  Suponga  ademas  que  la  primera  ecuacion 
del  modelo  es 


Yu  —  Po  +  P2Y21  +  PiYn  +  oi\X\i  +  uu  (19.5.1) 

Si  Y2  y  L,  son  verdaderamente  endogenas,  no  se  puede  estimar  la  ecuacion  (19.5.1)  por  MCO 
((',por  que?).  Entonces,  ,',c6mo  averiguarlo?  Se  puede  proceder  de  la  siguiente  manera:  se  obtienen 
las  ecuaciones  en  forma  reducida  para  Y2  y  7;  (Nota:  Las  ecuaciones  en  forma  reducida  tendran 
solamente  variables  predeterminadas  al  lado  derecho).  De  estas  ecuaciones  se  obtienen  >2,  y  Y3 /, 
los  valores  pronosticados  de  72/  y  73,,  respectivamente.  Entonces,  dentro  del  planteamiento  de  la 
prueba  de  Hausman,  analizada  anteriormente,  se  puede  estimar  la  siguiente  ecuacion  mediante 
MCO: 

Y\i  =  Po  +  P2Y21  +  PiY^i  +  a\X\j  +  7.2  72/  +  7-3^3/  +  wiz  (19.5.2) 

Al  emplear  la  prueba  F,  se  demuestra  la  hipotesis  de  que  A 2  =  7-3  =  0.  Si  esta  hipotesis  es  recha- 
zada,  72  y  73  pueden  considerarse  endogenas,  pero  si  no  lo  es,  pueden  ser  tratadas  como  exoge¬ 
nas.  Para  un  ejemplo  concreto  vease  el  ejercicio  19.16. 


*  Opcional. 

14  Al  igual  que  en  la  nota  1 2  de  pie  de  pagina,  los  autores  utilizan  a  AID  como  regresora  en  lugar  de  AID. 
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Resumen  y 
conclusiones 


EJERCICIOS 


1 .  El  problema  de  la  identificacion  es  anterior  al  problema  de  la  estimation. 

2.  Por  problema  de  la  identificacion  se  entiende  la  posibilidad  de  obtener  estimaciones  numeri- 
cas  unicas  de  los  coeficientes  estructurales  a  partir  de  los  coeficientes  en  forma  reducida. 

3.  Si  esto  puede  hacerse,  una  ecuacion  que  forma  parte  de  un  sistema  de  ecuaciones  simulta¬ 
neas  esta  identificada.  Si  esto  no  puede  hacerse,  la  ecuacion  estara  no  identificada  o  subiden- 
tificada. 

4.  Una  ecuacion  identificada  puede  estarlo  en  forma  exacta  o  estar  sobreidentificada.  En  el 
primer  caso  pueden  obtenerse  valores  uni  cos  de  los  coeficientes  estructurales;  en  el  segundo, 
puede  haber  mas  de  un  valor  para  uno  o  mas  de  los  parametros  estructurales. 

5.  El  problema  de  la  identificacion  surge  porque  el  mismo  conjunto  de  information  puede  ser 
compatible  con  diferentes  conjuntos  de  coeficientes  estructurales,  es  decir,  diferentes  mo¬ 
delos.  Asi,  en  la  regresion  del  precio  sobre  la  cantidad  solamente,  es  dificil  decir  si  se  esta 
estimando  la  funcion  de  oferta  o  la  de  demanda,  porque  el  precio  y  la  cantidad  forman  parte 
de  ambas  ecuaciones. 

6.  Para  establecer  si  una  ecuacion  estructural  esta  identificada,  se  puede  aplicar  la  tecnica  de 
las  ecuaciones  en  forma  reducida,  que  expresan  una  variable  endogena  unicamente  como 
funcion  de  variables  predeterminadas. 

7.  Sin  embargo,  este  laborioso  procedimiento  se  puede  evitar  recurriendo  a  la  condicion  de 
orden  o  a  la  condicion  de  rango  para  la  identificacion.  Aunque  la  condicion  de  orden  es 
facil  de  aplicar,  esta  proporciona  solamente  una  condicion  necesaria  para  la  identificacion. 
Por  otra  parte,  la  condicion  de  rango  es  una  condicion  necesaria  y  suficiente  para  la  identi¬ 
ficacion.  Si  la  condicion  de  rango  se  satisface,  la  de  orden  se  satisface  tambien,  aunque  lo 
contrario  no  es  cierto.  Pero,  en  la  practica,  la  condicion  de  orden  es  generalmente  adecuada 
para  asegurar  la  identificabilidad. 

8.  En  presencia  de  simultaneidad,  por  lo  general,  MCO  no  son  aplicables,  como  se  mostro  en 
el  capitulo  18.  No  obstante,  si  se  desea  utilizarlos  es  imperative  realizar  explicitamente  la 
prueba  de  simultaneidad.  La  prueba  de  especificacion  de  Hausman  puede  emplearse  para 
este  proposito. 

9.  Aunque,  en  la  practica,  la  decision  de  si  una  variable  es  endogena  o  exogena  es  un  asunto 
de  juicio,  es  posible  utilizar  la  prueba  de  especificacion  de  Hausman  para  determinar  si  una 
variable  o  un  grupo  de  variables  son  exogenas  o  endogenas. 

10.  Aunque  son  de  la  misma  familia,  los  conceptos  de  causalidad  y  de  exogeneidad  son  diferen¬ 
tes  y  uno  puede  no  necesariamente  implicar  el  otro.  En  la  practica,  es  mejor  mantener  esos 
conceptos  separados  (vease  la  seccion  17.14). 


Preguntas 

19.1.  Demuestre  que  las  dos  definiciones  de  la  condicion  de  orden  para  la  identificacion  (vease 
la  seccion  19.3)  son  equivalentes. 

19.2.  Deduzca  los  coeficientes  estructurales  de  los  coeficientes  en  forma  reducida  dados  en  las 
ecuaciones  (19.2.25)  y  (19.2.27). 

19.3.  Obtenga  la  forma  reducida  de  los  siguientes  modelos  y  determine  en  cada  caso  si  las 
ecuaciones  estructurales  no  estan  identificadas,  estan  identificadas  exactamente  o  estan 
sobreidentificadas: 

a)  Capitulo  18,  ejemplo  18.2. 

b)  Capitulo  18,  ejemplo  18.3. 

c )  Capitulo  18,  ejemplo  18.6. 

19.4.  Verifique  la  identificabilidad  de  los  modelos  del  ejercicio  19.3,  aplicando  las  condiciones 
de  orden  y  de  rango  para  la  identificacion. 

19.5.  En  el  modelo  (19.2.22)  del  texto  se  demostro  que  la  ecuacion  de  oferta  estaba  sobreidenti¬ 
ficada.  (',Cuales  restricciones,  de  existir,  sobre  los  parametros  estructurales  haran  que  esta 
ecuacion  este  exactamente  identificada?  Justifique  las  restricciones  que  se  impongan. 
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TABLA  19.3 


19.6.  Del  modelo 

Y\t  —  /bo  +  PuY2t  +  Y\\X\t  +  u\t 
Ylt  —  @20  +  PllYu  +  722X2,  +  nit 
se  obtienen  las  siguientes  ecuaciones  en  forma  reducida: 

Y\t  —  n  10  +  T[\\X\t  +  1112X2,  +  w, 

Y2t  —  n20  +  n2iXi,  +  1122X2,  +  v, 

a)  /Estan  identificadas  las  ecuaciones  estructurales? 

b)  /Que  sucede  con  la  identificacion  si  se  sabe  a  priori  que  yw  =  0? 

19.7.  Remitase  al  ejercicio  19.6.  Las  ecuaciones  estimadas  en  forma  reducida  son  las  siguien¬ 
tes: 

Ylt  =  4  +  3Xlf  +  8X2, 

Y2i  =  2  +  6Xi,  +  10X2, 

a)  Obtenga  los  valores  de  los  parametros  estructurales. 

b )  /.Como  se  probaria  la  hipotesis  nula  de  que  yn  =  0? 

19.8.  El  modelo 

Y\t  =  /lio  +  PuY2t  +  LnXi,  +  u\t 
Y2t  —  P20  +  P  21  Y\t  +  u2t 

genera  las  siguientes  ecuaciones  en  forma  reducida: 

Yu  =  4  +  8X„ 

Y2,  =  2  +  12XU 

a )  /Cuales  coeficientes  estructurales,  de  existir,  pueden  ser  estimados  a  partir  de  los 
coeficientes  en  forma  reducida?  Fundamente  el  argumento. 

b)  /Como  cambia  la  respuesta  de  a)  si  se  sabe  a  priori  que  1)  ,612  =  0  y  2)  /bo  =  0? 

19.9.  Determine  si  las  ecuaciones  estructurales  del  modelo  dado  en  el  ejercicio  18.8  estan  iden¬ 
tificadas. 

19.10.  Remitase  al  ejercicio  18.7  y  determine  cuales  ecuaciones  estructurales  pueden  ser  identi¬ 
ficadas. 

19.1 1.  La  tabla  19.3  es  un  modelo  de  cinco  ecuaciones  con  cinco  variables  endogenas  Y y  cuatro 
variables  exogenas  X: 


Coeficientes  de  las  variables 


Num.  de  ecuacion 

Y^ 

Y2 

Y4 

Ys 

X^ 

X2 

*3 

X4 

1 

1 

Pm 

0 

Pi  A 

0 

K11 

0 

0 

714 

2 

0 

1 

P23 

P24 

0 

0 

K22 

723 

0 

3 

Pa 

0 

1 

P34 

Pi  5 

0 

0 

733 

734 

4 

0 

P 42 

0 

1 

0 

741 

0 

743 

0 

5 

0 

0 

PsA 

1 

0 

KS2 

753 

0 

Determine  la  identificabilidad  de  cada  ecuacion  con  la  ayuda  de  las  condiciones  de 
orden  y  de  rango  para  la  identificacion. 

19. 12.  Considere  el  siguiente  modelo  keynesiano  ampliado  de  determinacion  del  ingreso: 


Funcion  de  consumo: 
Funcion  de  inversion: 
Funcion  de  impuestos: 
Identidad  del  ingreso: 


Ct  —  Pi  +  P2  Yt  —  PiT,  +  mi, 
I,  —a0  +  «i  L,_i  +  u2t 
Tt  —  yo  +  Y 1 Y,  +  M3, 

Y,  =  C,  +  /,  +  G, 
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en  donde  C  =  gasto  de  consumo 
Y  —  ingreso 
/  =  inversion 
T  —  impuestos 
G  —  gasto  gubernamental 
u  =  terminos  de  perturbacion 

En  el  modelo,  las  variables  endogenas  son  C,  /,  T  y  Y,  y  las  variables  predeterminadas  son 
Gy  7,_i. 

A1  aplicar  la  condicion  de  orden,  verifique  la  identificabilidad  de  cada  una  de  las  ecua¬ 
ciones  en  el  sistema  y  del  sistema  como  un  todo.  (',Quc  sucederia  si  rt,  la  tasa  de  interes, 
que  se  ha  supuesto  exogena,  apareciera  al  lado  derecho  de  la  funcion  de  inversion? 

19.13.  Remitase  a  la  information  dada  en  la  tabla  18.1  del  capitulo  18.  Utilizando  esta  informa- 
cion,  estime  las  regresiones  en  forma  reducida  (19.1.2)  y  (19.1.4).  (',Se  pueden  estimar  Po 
y  /Si?  Muestre  los  calculos.  ^Esta  el  modelo  identificado?  (',Por  que  si  o  por  que  no? 

19.14.  Suponga  que  se  propone  una  definicion  adicional  a  la  condicion  de  orden  para  la  identifi¬ 
cation: 


K  >  m  +  k  —  1 

que  establece  que  el  numero  de  variables  predeterminadas  en  el  sistema  no  puede  ser 
menor  que  el  numero  de  coeficientes  desconocidos  en  la  ecuacion  que  va  a  ser  identifi- 
cada.  Muestre  que  esta  definicion  es  equivalente  a  las  otras  dos  definiciones  de  la  condi¬ 
cion  de  orden  dadas  en  el  texto. 

19.15.  A  continuation  se  presenta  una  version  simplificada  del  modelo  de  Suits  del  mercado  de 
sandias.* 

Ecuacion  de  demanda:  Pt  —  chq  +  a\{  Q,/Nt)  +  a2(Y,/Nt)  +  oi^F,  +  ui, 

Funcion  de  oferta  de 

la  cosecha:  Q,  —  /So  +  /  Wt)  +  P2P t-\  +  PiCt- 1  +  /S4 Z)—  1  +  «2r 

en  donde  P  =  precio 

( Q/N )  =  cantidad  demandada  per  capita 
(Y/N)  =  ingreso  per  capita 
F  —  costos  de  transporte 

(P/W)  —  precio  relativo  a  la  tasa  salarial  agricola 
C  =  precio  del  algodon 
T  =  precio  de  otros  vegetales 
N  =  poblacion 

P  y  Q  son  las  variables  endogenas. 

a)  Obtenga  la  forma  reducida. 

b)  Determine  si  la  funcion  de  demanda,  de  oferta,  o  las  dos  estan  identificadas. 


Ejercicios  empfricos 

19.16.  Considere  el  siguiente  modelo  de  demanda  y  oferta  de  dinero: 

Demanda  de  dinero:  Mf  —  Po  +  Pi  Y,  +  P2R1  +  /S3P,  +  u\t 

Oferta  de  dinero:  Mst  —  ag  +  ot\  Yt  +  1121 


*  D.B.  Suits,  "An  Econometric  Model  of  the  Watermelon  Market",  journal  of  Farm  Economics,  vol.  37,  1 955, 
pp.  237-251. 
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TABLA  19.4 

Dinero,  PIB,  tasa  de  inte¬ 

Observacion 

m2 

PIB 

TASABT 

IPC 

res  e  indice  de  precios  al 

1970 

626.5 

3  771.9 

6.458 

38.8 

consumidor  en  Estados 

1971 

710.3 

3  898.6 

4.348 

40.5 

Unidos,  1970-2006 

1972 

802.3 

4  105.0 

4.071 

41.8 

1973 

855.5 

4  341.5 

7.041 

44.4 

Fuente:  Economic  Report  of  the 

1974 

902.1 

4  319.6 

7.886 

49.3 

President,  2007,  tablas  B-2,  B-60, 

D  (L(\  ,,  O  11 

1975 

1  016.2 

4  311.2 

5.838 

53.8 

—  yc-„  1976 

1  152.0 

4  540.9 

4.989 

56.9 

1977 

1  270.3 

4  750.5 

5.265 

60.6 

1978 

1  366.0 

5  015.0 

7.221 

65.2 

1979 

1  473.7 

5  173.4 

10.041 

72.6 

1980 

1  599.8 

5  161.7 

11.506 

82.4 

1981 

1  755.5 

5  291.7 

14.029 

90.9 

1982 

1  910.1 

5  189.3 

10.686 

96.5 

1983 

2  126.4 

5  423.8 

8.63 

99.6 

1984 

2  309.8 

5  813.6 

9.58 

103.9 

1985 

2  495.5 

6  053.7 

7.48 

107.6 

1986 

2  732.2 

6  263.6 

5.98 

109.6 

1987 

2  831.3 

6  475.1 

5.82 

113.6 

1988 

2  994.3 

6  742.7 

6.69 

118.3 

1989 

3  158.3 

6  981 .4 

8.12 

124.0 

1990 

3  277.7 

7  112.5 

7.51 

130.7 

1991 

3  378.3 

7  100.5 

5.42 

136.2 

1992 

3  431.8 

7  336.6 

3.45 

140.3 

1993 

3  482.5 

7  532.7 

3.02 

144.5 

1994 

3  498.5 

7  835.5 

4.29 

148.2 

1995 

3  641.7 

8  031.7 

5.51 

152.4 

1996 

3  820.5 

8  328.9 

5.02 

156.9 

1997 

4  035.0 

8  703.5 

5.07 

160.5 

1998 

4  381.8 

9  066.9 

4.81 

163.0 

1999 

4  639.2 

9  470.3 

4.66 

166.6 

2000 

4  921.7 

9  817.0 

5.85 

172.2 

2001 

5  433.5 

9  890.7 

3.45 

177.1 

2002 

5  779.2 

10  048.8 

1.62 

179.9 

2003 

6  071.2 

10  301.0 

1.02 

184.0 

2004 

6  421.6 

10  675.8 

1.38 

188.9 

2005 

6  691.7 

11  003.4 

3.16 

195.3 

2006 

7  035.5 

11  319.4 

4.73 

201.6 

Notas:  M2  =  oferta  de  dinero  M2  (miles  de  millones  de  dolares). 

PIB  =  producto  intemo  bruto  (miles  de  millones  de  dolares). 
TASABT  =  tasa  de  interes  de  los  bonos  del  Tesoro  a  tres  meses,  %. 
IPC  =  indice  de  precios  al  consumidor  (1982-1984  =  100). 


en  donde  M  =  dinero 
Y  —  ingreso 
R  =  tasa  de  interes 
P  —  precio 
u  =  terminos  de  error 

Suponga  que  Ry  P  son  exogenas  y  que  My  Y  son  endogenas.  En  la  tabla  19.4  se  presenta 
informacion  sobre  M  (definicion  MY),  Y  (PIB),  R  (tasa  de  los  bonos  del  Tesoro  a  tres 
meses)  y  P  (indice  de  precios  al  consumidor),  para  Estados  Unidos  durante  1970-2006. 
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a)  /.Esta  identificada  la  funcion  de  demanda? 

b)  /.Esta  identificada  la  funcion  de  oferta? 

c)  Obtenga  las  expresiones  para  las  ecuaciones  en  forma  reducida  para  My  para  Y. 

d)  Aplique  la  prueba  de  la  simultaneidad  a  la  funcion  de  oferta. 

e)  /.C  omo  puede  establecerse  si  Y  es  realmente  endogena  en  la  funcion  de  oferta  de  di- 
nero? 

19.17.  La  prueba  de  Hausman  analizada  en  el  texto  tambien  se  puede  llevar  a  cabo  de  la  si- 

guiente  manera.  Considere  la  ecuacion  (19.4.7): 

Qt  —  A)  +  P\Pt  +  Pi  vt  +  «2 1 

a)  Puesto  que  Pt  y  vt  tienen  los  mismos  coeficientes,  /como  se  probarla  que  en  una  apli- 
cacion  determinada  esto  es  as!  efectivamente?  /.Que  implicaciones  tiene  esto? 

b)  Puesto  que  P,  no  esta  correlacionada  con  m2/  por  definicion  (/.por  que?),  una  manera 
de  averiguar  si  P,  es  exogena  consiste  en  ver  si  v,  esta  correlacionada  con  w2r.  /.Como 
se  puede  probar  esto?  /.Que  prueba  se  emplea?  ( Pista :  Sustituya  P,  de  la  ecuacion 
[19.4.6]  en  la  ecuacion  [19.4.7].) 


Capitulo 


Metodos  de 

ecuaciones  simultaneas 


Despues  de  analizar  la  naturaleza  de  los  modelos  de  ecuaciones  simultaneas  en  los  dos  capitu- 
los  anteriores,  aqui  se  trata  el  problema  de  la  estimacion  de  los  parametros  de  tales  modelos. 
Para  empezar,  puede  decirse  que  el  problema  de  estimacion  es  mas  bien  complejo  porque  hay 
una  diversidad  de  tecnicas  de  estimacion  con  propiedades  estadisticas  diversas.  En  vista  de  la 
naturaleza  introductoria  de  este  texto,  se  consideraran  solamente  algunas  de  estas  tecnicas.  La 
exposition  sera  simple  y  con  frecuencia  heuristica,  dejando  los  detalles  mas  complejos  para  las 
referencias. 


20.1  Enfoques  para  la  estimacion 


Si  se  considera  el  modelo  general  de  M  ecuaciones  con  M  variables  endogenas  dado  en  la  ecuacion 
(19.1.1),  pueden  adoptarse  dos  enfoques  para  estimar  las  ecuaciones  estructurales,  a  saber:  meto¬ 
dos  uniecuacionales,  tambien  conocidos  como  metodos  de  information  limitada,  y  metodos  de 
sistemas,  conocidos  como  metodos  de  informacion  completa.  En  los  metodos  uniecuacionales 
que  seran  considerados  en  breve,  cada  ecuacion  en  el  sistema  (de  ecuaciones  simultaneas)  se 
estima  individualmente,  considerando  las  restricciones  impuestas  sobre  ella  (tales  como  la  ex¬ 
clusion  de  algunas  variables)  sin  preocuparse  de  las  restricciones  sobre  las  otras  ecuaciones  en  el 
sistema;1  de  ahi  el  nombre  de  metodos  de  informacion  limitada.  Por  otra  parte,  en  los  metodos 
de  sistemas,  se  estiman  todas  las  ecuaciones  en  el  modelo  de  manera  simultanea,  teniendo  en 
cuenta  las  restricciones  ocasionadas  por  la  omision  o  ausencia  de  algunas  variables  sobre  dichas 
ecuaciones  (recuerde  que  tales  restricciones  son  esenciales  para  la  identificacion),  de  aqui  el 
nombre  metodos  de  informacion  completa. 

Como  ejemplo,  considere  el  siguiente  modelo  de  cuatro  ecuaciones: 

Yit— P 10+  +  P12Y21+  PnY2,+  +Y\\X\t+  +  u\t 

Y2t  —  P20  +  +  P23Y31  +  Y2\X\t  +  Y22%2t  +  «2  / 

Y-it  —  P20  +  PnYlt  +  +  P24Y41  +  Y31-Ylt  +  y32-^2/  +  +  t‘3r 

Y4t  —  ft 40  +  +  @42Y2t  +  Y 43^31  +  U4t 

(20.1.1) 


1  Sin  embargo,  para  fines  de  identificacion,  la  informacion  proporcionada  por  otras  ecuaciones  tendra  que 
ser  considerada.  Pero,  como  se  menciono  en  el  capitulo  1 9,  la  estimacion  es  posible  solo  en  el  caso  de 
ecuaciones  identificadas  (exactamente  o  sobreidentificadas).  En  este  capitulo  se  supone  que  el  problema  de 
identificacion  se  ha  resuelto  utilizando  las  tecnicas  de  dicho  capitulo. 
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en  donde  las  Y  son  las  variables  endogenas  y  las  X  son  las  variables  exogenas.  Si  se  esta  inte- 
resado  en  estimar,  por  ejemplo,  la  tercera  ecuacion,  los  metodos  uniecuacionales  consideraran 
solamente  esta  ecuacion,  observando  que  las  variables  Y2  y  X3  estan  excluidas  de  ella.  En  los 
metodos  de  sistemas,  por  el  contrario,  se  trata  de  estimar  las  cuatro  ecuaciones  simultaneamente, 
teniendo  en  cuenta  todas  las  restricciones  impuestas  sobre  las  diversas  ecuaciones  del  sistema. 

Para  preservar  el  espiritu  de  los  modelos  de  ecuaciones  simultaneas,  idealmente  deberia  uti- 
lizarse  el  metodo  de  sistemas,  tal  como  el  metodo  de  maxima  verosimilitud  con  informacion 
completa  (MVIC).2  Sin  embargo,  en  la  practica,  tales  metodos  no  son  de  uso  frecuente  por 
multiples  razones.  Primero,  la  carga  computacional  es  enorme.  Por  ejemplo,  el  modelo  compara- 
tivamente  pequeno  (20  ecuaciones)  de  Klein-Goldberger  de  la  economla  de  Estados  Unidos  para 
1955  tenia  151  coeficientes  diferentes  de  cero,  de  los  cuales  los  autores  estimaron  solo  51,  utili- 
zando  informacion  de  series  de  tiempo.  El  modelo  econometrico  del  Brookings  Social  Science 
Research  Council  (SSRC)  para  la  economia  estadounidense,  publicado  en  1965,  tenia  inicial- 
mente  150  ecuaciones.3  Aunque  modelos  tan  elaborados  pueden  proporcionar  detalles  complejos 
de  los  diversos  sectores  de  la  economia,  los  calculos  representan  un  enorme  esfuerzo  aun  en 
estos  dias  de  computadoras  de  alta  velocidad,  sin  mencionar  el  costo  involucrado.  Segundo,  los 
metodos  de  sistemas,  como  el  MVIC,  conducen  a  soluciones  que  son  altamente  no  lineales  en 
los  parameters  y,  por  consiguiente,  dificiles  de  determinar.  Tercero,  si  hay  un  error  de  especifica¬ 
cion  (por  ejemplo,  una  forma  funcional  equivocada  o  la  exclusion  de  variables  relevantes)  en  una 
o  en  mas  ecuaciones  del  sistema,  dicho  error  es  transmitido  al  resto  del  sistema.  Como  resultado, 
los  metodos  de  sistemas  se  vuelven  muy  sensibles  a  los  errores  de  especificacion. 

Por  consiguiente,  en  la  practica,  los  metodos  uniecuacionales  son  utilizados  con  mas  frecuen- 
cia.  Como  lo  plantea  Klein, 

Los  metodos  uniecuacionales,  en  el  contexto  de  un  sistema  simultaneo,  pueden  ser  menos  sensibles 
a  errores  de  especificacion  en  el  sentido  de  que  aquellas  partes  del  sistema  que  tienen  una  especifi¬ 
cacion  correcta  pueden  no  verse  afectadas  considerablemente  por  errores  de  especificacion  en  otra 
parte.4 

En  el  resto  del  capltulo  se  tratara  solo  con  los  metodos  uniecuacionales.  En  especifico,  se 
estudiaran  los  siguientes  metodos  uniecuacionales: 

1.  Minimos  cuadrados  ordinarios  (MCO) 

2.  Minimos  cuadrados  indirectos  (MCI) 

3.  Minimos  cuadrados  en  dos  etapas  (MC2E) 


20.2  Modelos  recursivos  y  minimos  cuadrados  ordinarios 


En  el  capitulo  18  se  vio  que,  debido  a  la  interdependencia  entre  el  termino  de  perturbacion  esto- 
castico  y  la(s)  variable(s)  explicativa(s)  endogena(s),  el  metodo  de  MCO  es  inapropiado  para  la 
estimacion  de  una  ecuacion  en  un  sistema  de  ecuaciones  simultaneas.  Asl,  como  se  explico  en 
la  seccion  18.3,  si  se  aplica  erroneamente,  los  estimadores  no  solo  resultan  sesgados  (en  muestras 
pequenas)  sino  tambien  inconsistentes;  es  decir,  sin  importar  que  tan  grande  sea  el  tamano  de  la 
muestra,  el  sesgo  no  desaparece.  Sin  embargo,  hay  una  situation  en  la  cual  el  metodo  de  MCO 
puede  ser  aplicado  apropiadamente,  aun  en  el  contexto  de  las  ecuaciones  simultaneas.  Es  el  caso 
de  los  modelos  recursivos,  triangulares  o  causales. 


2  Para  una  exposicion  sencilla  de  este  metodo,  vea  Carl  F.  Christ,  Econometric  Models  and  Methods,  John 
Wiley  &  Sons,  Nueva  York,  1966,  pp.  395-401 . 

3  James  S.  Duesenberry,  Gary  Fromm,  Lawrence  R.  Klein  y  Edwin  Kuh,  eds.,  A  Quarterly  Model  of  the  United 
States  Economy,  Rand  McNally,  Chicago,  1 965. 

4  Lawrence  R.  Klein,  A  Textbook  of  Econometrics,  2a.  ed.,  Prentice-Hall,  Englewood  Cliffs,  N.J.,  1 974,  p.  1 50. 
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Para  ver  la  naturaleza  de  estos  modelos,  considere  el  siguiente  sistema  de  tres  ecuaciones: 

Y\t  —  +  Y\\X\t  +  YuXit  +  U\t 

Yu  —  P20  +  Pi\Y\t  +  Y2\X\t  +  Y22^2t  +  «2 1  (20.2.1) 

Yit  —  Ao  +  Al  Y\t  +  P12Y21  +  Y2\X\,  +  Y22^2t  +  Uit 

en  donde,  como  es  usual,  las  Y  y  las  X  son  las  variables  endogenas  y  exogenas  respectivamente. 
Las  perturbaciones  son  tales  que 

COV  {u\t,  U2t)  —  COV(wi,,  U3t)  —  COV  (u2t,  uy)  —  0 

es  decir,  las  perturbaciones  de  diferentes  ecuaciones  en  el  mismo  periodo  no  estan  correlaciona- 
das  (tecnicamente,  este  es  el  supuesto  de  cero  correlacion  contemporanea). 

Ahora,  considere  la  primera  ecuacion  de  (20.2.1).  Puesto  que  contiene  variables  exogenas  al 
lado  derecho  y  como,  por  los  supuestos,  no  estan  correlacionadas  con  el  termino  de  perturbacion 
u\t,  esta  ecuacion  satisface  el  supuesto  critico  del  metodo  de  MCO  clasico,  a  saber:  la  no  corre¬ 
lacion  entre  las  variables  explicativas  y  las  perturbaciones  estocasticas.  Por  tanto,  MCO  puede 
aplicarse  directamente  a  esta  ecuacion.  Luego,  considere  la  segunda  ecuacion  de  (20.2.1),  la  cual 
contiene  la  variable  endogena  Y\  como  una  variable  explicativa  junto  con  las  X  no  estocasticas. 
Ahora  bien,  MCO  tambien  puede  ser  aplicado  a  esta  ecuacion,  siempre  y  cuando  Y\t  y  112,  no  esten 
correlacionadas.  (',Es  esto  asi?  La  respuesta  es  si  porque  u\,  el  cual  afecta  a  >),  por  los  supuestos 
y  no  esta  correlacionada  con  «2-  Por  consiguiente,  para  todos  los  efectos  practicos,  >j  es  una 
variable  predeterminada  en  lo  que  respecta  a  Y2.  Asi,  se  puede  proceder  con  la  estimacion  de  esta 
ecuacion  por  MCO.  Llevando  este  argumento  un  paso  mas  adelante,  tambien  se  puede  aplicar 
MCO  a  la  tercera  ecuacion  en  (20.2.1)  porque  Y\  y  Y2  no  estan  correlacionados  con  M3. 

Asi,  en  el  sistema  recursivo,  puede  aplicarse  MCO  a  cada  ecuacion  en  forma  separada;  de 
hecho,  no  se  tiene  el  problema  de  las  ecuaciones  simultaneas  en  esta  situacion.  Por  la  estructura 
de  tales  sistemas,  es  claro  que  no  hay  interdependencia  entre  las  variables  endogenas.  Asi,  Y\ 
afecta  a  >'2  pero  Y2  no  afecta  a  V],  Ln  forma  similar,  Y\  y  72  influyen  en  73  sin  que  esta  ultima  las 
influya.  En  otras  palabras,  cada  ecuacion  presenta  una  dependencia  causal  unilateral,  de  ahi  el 
nombre  de  modelos  causales.5  La  figura  20.1  ilustra  esto  de  manera  esquematica. 


FIGURA  20.1 

Modelo  recursivo. 


s  El  nombre  alternative  triangular  se  desprende  del  hecho  de  que  si  se  forma  la  matriz  de  los  coeficientes  de 
las  variables  endogenas  dadas  en  (20.2.1),  se  obtiene  la  siguiente  matriz  triangular: 


Ei  Y2  e3 


Ecuacion  1 
Ecuacion  2 
Ecuacion  3 


1  0  0 
ftn  1  0 

Pit  P12  1 


Observe  que  los  datos  por  encima  de  la  diagonal  principal  son  cero  (ipor  que?). 
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Como  ejemplo  de  un  sistema  recursivo,  puede  postularse  el  siguiente  modelo  de  determina- 
cion  de  salarios  y  precios: 

Ecuacion  de  precios:  Pt  —  fiio  +  fin  Wt~\  +  PnRt  +  PuM,  +  fiuLt  +  u\t 

Ecuacion  de  salarios:  Wt  —  /Lo  +  /I21UN,.  +  ^32  A  +  M2r  (20.2.2) 

donde  P  —  tasa  de  cambio  del  precio  por  unidad  de  produccion 
W  —  tasa  de  cambio  de  los  salarios  por  empleado 
R  —  tasa  de  cambio  del  precio  del  capital 
M  —  tasa  de  cambio  de  los  precios  de  importation 
L  —  tasa  de  cambio  de  la  productividad  laboral 
UN  =  tasa  de  desempleo,  %6 

La  ecuacion  de  precios  postula  que  la  tasa  de  cambio  de  los  precios  en  el  periodo  actual  es  una 
funcion  de  las  tasas  de  cambio  en  los  precios  del  capital  y  de  las  materias  primas,  de  la  tasa  de 
cambio  en  la  productividad  laboral  y  de  la  tasa  de  cambio  en  los  salarios  en  el  periodo  anterior. 
La  ecuacion  de  salarios  muestra  que  la  tasa  de  cambio  en  los  salarios  en  el  periodo  actual  esta 
determinada  por  la  tasa  de  cambio  de  los  precios  en  el  periodo  actual  y  por  la  tasa  de  desempleo. 
Es  claro  que  la  cadena  causal  va  de  Wt- 1  Wt  y,  por  consiguiente,  puede  aplicarse  MCO 

para  estimar  los  parametros  de  las  dos  ecuaciones  individualmente. 

Aunque  los  modelos  recursivos  han  demostrado  ser  utiles,  la  mayor  parte  de  los  modelos  de 
ecuaciones  simultaneas  no  presentan  tal  relation  unilateral  de  causa  y  efecto.  Por  consiguiente, 
MCO,  en  general,  resulta  inapropiado  para  estimar  una  sola  ecuacion  en  el  contexto  de  un  modelo 
de  ecuaciones  simultaneas.7 

Hay  quienes  sostienen  que  aunque  MCO  generalmente  es  inaplicable  a  modelos  de  ecuaciones 
simultaneas,  se  puede  utilizar  solamente  como  estandar  o  norma  de  comparacion.  Es  decir,  se 
puede  estimar  una  ecuacion  estructural  mediante  MCO,  con  las  propiedades  resultantes  de  sesgo, 
inconsistencia,  etc.  Entonces,  la  misma  ecuacion  puede  ser  estimada  por  otros  metodos  especial- 
mente  disenados  para  manejar  el  problema  de  simultaneidad  y  los  resultados  de  los  dos  metodos 
pueden  compararse,  por  lo  menos,  de  manera  cualitativa.  En  muchas  aplicaciones  los  resulta¬ 
dos  de  MCO  aplicado  de  forma  inapropiada  pueden  no  diferir  mucho  de  aquellos  obtenidos  por 
metodos  mas  complejos,  como  se  vera  mas  adelante.  En  principio,  no  debe  haber  mucha  objecion 
en  la  presentation  de  resultados  basados  en  MCO,  siempre  y  cuando  las  estimaciones  hechas  con 
base  en  metodos  alternos  disenados  para  modelos  de  ecuaciones  simultaneas  tambien  sean  pro- 
porcionadas.  De  hecho,  este  metodo  podria  dar  alguna  idea  de  que  tan  malas  son  las  estimaciones 
de  MCO  en  situaciones  en  las  cuales  dicho  metodo  es  aplicado  inapropiadamente.8 


6  Nota:  El  sfmbolo  con  punto  significa  "derivada  con  respecto  al  tiempo".  Por  ejemplo,  P  +  dP/dt.  Para  se¬ 
ries  de  tiempo  discretas,  dP/dt  en  ocasiones  es  aproximada  por  AP/At,  donde  el  sfmbolo  A  es  el  operador 
de  primeras  diferencias,  que  fue  introducido  originalmente  en  el  capftulo  12. 

7  Es  importante  tener  presente  que  se  esta  suponiendo  que  las  perturbaciones  entre  ecuaciones  no  estan 
correlacionadas  contemporaneamente.  Si  este  no  es  el  caso,  puede  ser  que  se  deba  recurrir  a  la  tecnica  de 
estimacion  SURE  (regresiones  aparentemente  no  relacionadas)  de  Zellner  para  estimar  los  parametros  del 
sistema  recursivo.  Vease  A.  Zellner,  "An  Efficient  Method  of  Estimating  Seemingly  Unrelated  Regressions  and 
Tests  for  Aggregation  Bias",  journal  of  the  American  Statistical  Association,  vol.  57,  1 962,  pp.  348-368. 

8  Puede  mencionarse  que  en  muestras  pequenas,  los  estimadores  alternativos,  al  igual  que  los  estimadores 
por  MCO,  tambien  son  sesgados.  Pero  el  estimador  de  MCO  tiene  la  "virtud"  de  tener  varianza  minima 
entre  estos  estimadores  alternativos.  Pero  esto  es  cierto  solo  para  muestras  pequenas. 
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20.3  Estimacion  de  una  ecuacion  exactamente  identificada: 
el  metodo  de  imnimos  cuadrados  indirectos  (MCI) 


Para  una  ecuacion  estructural  precisa  o  exactamente  identificada,  el  metodo  para  obtener  las  esti- 
maciones  de  los  coeficientes  estructurales  a  partir  de  las  estimaciones  por  MCO  de  los  coeficien- 
tes  en  forma  reducida  se  conoce  como  metodo  de  minimos  cuadrados  indirectos  (MCI),  y  las 
estimaciones  asi  obtenidas  se  conocen  como  estimaciones  de  minimos  cuadrados  indirectos. 
MCI  comprende  los  tres  pasos  siguientes: 

Paso  1.  Se  obtienen  primero  las  ecuaciones  en  forma  reducida.  Como  se  menciono  en 
el  capitulo  19,  estas  se  obtienen  de  las  ecuaciones  estructurales  en  forma  tal  que  la  varia¬ 
ble  dependiente  en  cada  ecuacion  es  la  unica  variable  endogena  y  esta  en  funcion  uni- 
camente  de  las  variables  predeterminadas  (exogenas  o  endogenas  rezagadas)  y  del  (los) 
termino(s)  de  error(es)  estocastico(s). 

Paso  2.  Se  aplica  MCO  individualmente  a  las  ecuaciones  en  la  forma  reducida.  Esta 
operacion  es  permisible  puesto  que  las  variables  explicativas  en  estas  ecuaciones  estan  pre¬ 
determinadas  y,  por  tanto,  no  estan  correlacionadas  con  las  perturbaciones  estocasticas.  Las 
estimaciones  asi  obtenidas  son  consistentes.9 

Paso  3.  Se  obtienen  estimaciones  de  los  coeficientes  estructurales  originales  a  partir  de  los 
coeficientes  en  forma  reducida  estimados,  obtenidos  en  el  paso  2.  Como  se  menciono  en  el 
capitulo  19,  si  una  ecuacion  esta  exactamente  identificada,  hay  una  correspondencia  uno  a 
uno  entre  los  coeficientes  estructurales  y  los  coeficientes  en  la  forma  reducida;  es  decir,  pue- 
den  derivarse  estimaciones  unicas  de  los  primeros  a  partir  de  los  ultimos. 

Como  lo  indica  este  procedimiento  de  tres  etapas,  el  nombre  de  MCI  se  deriva  del  hecho  de 
que  los  coeficientes  estructurales  (objeto  principal  de  investigacion  en  la  mayoria  de  los  casos) 
se  obtienen  indirectamente  a  partir  de  las  estimaciones  por  MCO  de  los  coeficientes  en  forma 
reducida. 

Ejemplo  ilustrativo 

Considere  el  modelo  de  demanda  y  oferta  presentado  en  la  seccion 
cia,  esta  dado  en  seguida  con  un  ligero  cambio  en  la  notation: 

Funcion  de  demanda:  Q,  —  ao  +  oi\Pt  +  ajXt 

Funcion  de  oferta:  Q,  —  fo  +  P,  +  U2t 

en  donde  Q  —  cantidad 
P  —  precio 
X  —  ingreso  o  gasto 

Suponga  que  X  es  exogena.  Como  se  menciono  antes,  la  funcion  de  oferta  esta  exactamente  iden¬ 
tificada,  en  tanto  que  la  funcion  de  demanda  no  lo  esta. 

Las  ecuaciones  en  forma  reducida  correspondientes  a  las  ecuaciones  estructurales  anteriores 
son: 

Pt  =  n0  +  TUX'  +  wt  (20.3.3) 

Qt  =  n2  +  n3xt  +  v ,  (20.3.4) 


19.2,  el  cual,  por  convenien- 

+  uu  (20.3.1) 
(20.3.2) 


9  Ademas  de  ser  consistentes,  las  estimaciones  "pueden  ser  las  mejores  insesgadas  y/o  asintoticamente  efi- 
cientes  respectivamente,  dependiendo  de  que:  (/)  las  z  [=  X]  sean  exogenas  y  no  simplemente  predetermi¬ 
nadas  [es  decir,  que  no  contengan  valores  rezagados  de  variables  endogenas]  y/o  (//)  la  distribucion  de  las 
perturbaciones  sea  normal".  (W.C.  Hood  y  Tjalling  C.  Koopmans,  Studies  in  Econometric  Method,  John  Wiley 
&  Sons,  Nueva  York,  1953,  p.  133.) 
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en  donde  las  n  son  los  coeficientes  en  la  forma  reducida  y  son  combinaciones  (no  lineales)  de  los 
coeficientes  estructurales,  como  se  muestra  en  las  ecuaciones  (19.2.16)  y  (19.2.18),  y  donde  w  y 
v  son  combinaciones  lineales  de  las  perturbaciones  estructurales  u\  y  uj. 

Observe  que  cada  ecuacion  en  la  forma  reducida  contiene  una  sola  variable  endogena,  que  es 
la  dependiente  y  esta  en  funcion  unicamente  de  la  variable  exogenadf  (el  ingreso)  y  de  las  pertur¬ 
baciones  estocasticas.  Por  tanto,  los  parametros  de  las  ecuaciones  en  la  forma  reducida  anteriores 
pueden  ser  estimados  por  MCO.  Las  estimaciones  son: 


fit  = 

Em 

(20.3.5) 

n0  = 

p-iux 

(20.3.6) 

n3  = 

EdAr 

(20.3.7) 

fh  = 

Q-fhX 

(20.3.8) 

en  donde  las  letras  en  minusculas,  como  es  usual,  denotan  desviaciones  de  las  medias  muestra- 
les,  y  Q  y  P  son  los  valores  de  la  media  muestral  de  Q  y  de  P.  Como  se  indico  antes,  las  n,  son 
estimadores  consistentes  y,  bajo  los  supuestos  apropiados,  tambien  son  insesgados,  con  varianza 
minima  o  asintoticamente  eficientes  (vease  nota  9  de  pie  de  pagina). 

Puesto  que  el  objetivo  principal  es  determinar  los  coeficientes  estructurales,  se  vera  si  es  posi- 
ble  estimarlos  a  partir  de  los  coeficientes  en  forma  reducida.  Ahora,  como  se  indico  en  la  seccion 
19.2,  la  funcion  de  oferta  esta  exactamente  identificada.  Por  consiguiente,  sus  parametros  pueden 
estimarse  de  manera  unica  a  partir  de  los  coeficientes  en  forma  reducida  del  siguiente  modo: 

A)  =  n2  -  mo  y  A  =  ^ 

Hi 

Por  tanto,  las  estimaciones  de  estos  parametros  pueden  obtenerse  a  partir  de  las  estimaciones  de 
los  coeficientes  en  forma  reducida  como 


/Jo=  n2-ftn0  (20.3.9) 

ft  =  5-  (20.3.10) 

ni 

que  son  los  estimadores  por  MCI.  Observe  que  los  parametros  de  la  funcion  de  demanda  no  pue¬ 
den  ser  estimados  de  esta  forma  (sin  embargo,  vease  el  ejercicio  20.13). 

Para  dar  algunos  resultados  numericos,  se  obtuvo  la  informacion  que  aparece  en  la  tabla  20.1. 
Primero  se  estiman  las  ecuaciones  en  la  forma  reducida,  efectuando  separadamente  las  regresio- 
nes  del  precio  y  de  la  cantidad  sobre  el  gasto  de  consumo  real  per  capita.  Los  resultados  son  los 
siguientes: 


P,  =  90.9601  +  0.0007A, 

ee=  (4.0517)  (0.0002) 

(20.3.11) 

t=  (22.4499)  (3.0060) 

R2  =  (0.2440) 

Qt  =  59.7618  +  0.0020A, 

ee  =  (1.5600)  (0.00009) 

(20.3.12) 

t=  (38.3080)  (20.9273) 

R2  =  0.9399 

A1  utilizar  las  ecuaciones  (20.3.9)  y  (20.3.10),  se  obtienen  estas  estimaciones  por  MCI: 

Po  =  -183.7043  (20.3.13) 

A  =  2.6766  (20.3.14) 
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TAB  LA  20.1 

Produccion  de  cultivos, 
precios  de  cultivos  y 
gasto  de  consumo  perso¬ 
nal  per  capita,  en  dolares 
de  2007;  Estados  Unidos, 
1975-2004 

Fuente:  Economic  Report  of  the 
President,  2007.  Datos  sobre  Q 
(tabla  B-99),  sobre  P  (tabla 
B-101)  y  sobre  X (tabla  B-31). 


Observation 

Indice  de  produccion 
de  cultivos 
(1996=  100),  Q 

Indice  de  precios  de 
cultivos  que  se  pagan 
a  los  agricultores 
(1990-1992  =  100),  P 

Gasto  de  consumo 
personal  real 
per  capita,  X 

1975 

66 

88 

4  789 

1976 

67 

87 

5  282 

1977 

71 

83 

5  804 

1978 

73 

89 

6  417 

1979 

78 

98 

7  073 

1980 

75 

107 

7  716 

1981 

81 

111 

8  439 

1982 

82 

98 

8  945 

1983 

71 

108 

9  775 

1984 

81 

111 

10  589 

1985 

85 

98 

11  406 

1986 

82 

87 

12  048 

1987 

84 

86 

12  766 

1988 

80 

104 

13  685 

1989 

86 

109 

14  546 

1990 

90 

103 

15  349 

1991 

90 

101 

15  722 

1992 

96 

101 

16  485 

1993 

91 

102 

17  204 

1994 

101 

105 

18  004 

1995 

96 

112 

18  665 

1996 

100 

127 

19  490 

1997 

104 

115 

20  323 

1998 

105 

107 

21  291 

1999 

108 

97 

22  491 

2000 

108 

96 

23  862 

2001 

108 

99 

24  722 

2002 

107 

105 

25  501 

2003 

108 

111 

26  463 

2004 

112 

117 

27  937 

Por  consiguiente,  la  regresion  estimada  por  MCI  es10 

Qt  =  -183.7043  +  2.6766P,  (20.3.15) 

Para  comparar,  se  dan  los  resultados  de  la  regresion  por  MCO  (aplicado  de  manera  inapro- 
piada)  de  Q  sobre  P: 

Q,  =  20.89  +  0.673/', 

ee  =  (23.04)  (0.2246)  (20.3.16) 

t=  (0.91)  (2.99)  R2  =  0.2430 

Estos  resultados  muestran  como  MCO  puede  distorsionar  el  “verdadero”  panorama  cuando  se 
aplica  en  situaciones  inapropiadas. 


10  No  se  han  presentado  los  errores  estandar  de  los  coeficientes  estructurales  estimados  porque,  como  ya  se 
menciono,  estos  coeficientes  generalmente  son  funciones  no  lineales  de  los  coeficientes  en  la  forma  redu- 
cida  y  no  hay  un  metodo  simple  de  estimar  sus  errores  estandar  a  partir  de  los  errores  estandar  de  los  co¬ 
eficientes  en  la  forma  reducida.  Para  tamanos  de  muestra  grandes,  sin  embargo,  los  errores  estandar  de  los 
coeficientes  estructurales  pueden  ser  obtenidos  aproximadamente.  Para  mayores  detalles,  vease  Jan  Kmenta, 
Elements  of  Econometrics,  Macmillan,  Nueva  York,  1971,  p.  444. 
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Propiedades  de  los  estimadores  por  MCI 

Se  ha  visto  que  los  estimadores  de  los  coeficientes  en  forma  reducida  son  consistentes  y,  bajo  los 
supuestos  apropiados,  tambien  los  mejores  insesgados  o  asintoticamente  eficientes  (vease  nota  9 
de  pie  de  pagina).  /,Sc  trasladan  estas  propiedades  a  los  estimadores  por  MCI?  Puede  demostrarse 
que  los  estimadores  por  MCI  heredan  todas  las  propiedades  asintoticas  de  los  estimadores  en 
forma  reducida,  tales  como  consistencia  y  eficiencia  asintotica.  Pero  propiedades  (de  muestras 
pequenas)  tales  como  insesgamiento  generalmente  no  continuan  siendo  validas.  En  el  apendice 
20A,  seccion  20A.1,  se  demuestra  que  los  estimadores  por  MCI  (>o  y  fi\  de  la  funcion  de  oferta 
dados  anteriormente  son  sesgados,  pero  el  sesgo  desaparece  a  medida  que  el  tamano  de  la  mues- 
tra  aumenta  indefinidamente  (es  decir,  los  estimadores  son  consistentes).11 


20.4  Estimacion  de  una  ecuacion  sobreidentificada: 

metodo  de  muiimos  cuadrados  en  dos  etapas  (MC2E) 


Considere  el  siguiente  modelo: 


Funcion  de  ingreso: 

Y\t  —  /ho  + 

+  P\  1  Y2t  +  Y\\X\,  +  yi2X2,  +  u\t 

(20.4.1) 

Funcion  de 

Y2t  =  P20  +  /hi  Y\t 

+  u2t 

oferta  monetaria: 

(20.4.2) 

en  donde  Y\  =  ingreso 

1*2  =  existencias  de  dinero 

X\  =  gasto  de  inversion 

X2  =  gasto  del  gobierno  en  bienes  y  servicios 

Las  variables  X,  yX2  son  exogenas. 

La  ecuacion  de  ingreso,  un  hibrido  de  los  enfoques  de  las  teorias  cuantitativa  y  keynesiana  de 
la  determinacion  del  ingreso,  establece  que  el  ingreso  esta  determinado  por  la  oferta  monetaria, 
el  gasto  de  inversion  y  el  gasto  del  gobierno.  La  funcion  de  la  oferta  monetaria  postula  que  las 
existencias  de  dinero  estan  determinadas  (por  el  Sistema  de  la  Reserva  federal)  con  base  en  el 
nivel  del  ingreso.  Como  es  obvio,  se  tiene  un  problema  de  ecuaciones  simultaneas,  el  cual  puede 
verificarse  mediante  la  prueba  de  simultaneidad  estudiada  en  el  capitulo  19. 

A1  aplicar  la  condicion  de  orden  para  la  identificacion,  puede  verse  que  la  ecuacion  del  ingreso 
esta  subidentificada,  en  tanto  que  la  ecuacion  de  la  oferta  monetaria  esta  sobreidentificada.  Es 
poco  lo  que  puede  hacerse  sobre  la  ecuacion  del  ingreso,  a  no  ser  que  se  altere  la  especificacion 
del  modelo.  La  funcion  de  la  oferta  monetaria  sobreidentificada  no  puede  estimarse  mediante 
MCI  porque  hay  dos  estimaciones  de  /hi  (el  lector  debe  verificar  esto  por  medio  de  los  coeficien¬ 
tes  en  la  forma  reducida). 

A  manera  de  practica,  puede  aplicarse  MCO  a  la  ecuacion  de  la  oferta  monetaria,  pero  las 
estimaciones  obtenidas  por  este  mecanismo  seran  inconsistentes  en  vista  de  la  probable  corre- 
lacion  entre  la  variable  explicativa  estocastica  Y\  y  el  termino  de  perturbacion  estocastico  u2. 
Suponga,  sin  embargo,  que  se  encuentra  una  “variable  representante”  para  la  variable  explicativa 
estocastica  Y\,  tal  que,  aunque  “se  parece”  a  I)  (en  el  sentido  de  que  esta  altamente  correla- 
cionada  con  Y\ ),  no  esta  correlacionada  con  u2.  Tal  variable  se  conoce  tambien  como  variable 
instrumental  (vease  el  capitulo  17).  Si  se  puede  encontrar  tal  variable  representante,  puede  uti- 
lizarse  MCO  directamente  para  estimar  la  funcion  de  oferta  monetaria.  Pero  /como  se  obtiene 


11  Intuitivamente  esto  puede  verse  de  la  siguiente  manera:  £(/§ 1)  =  /t|  si  £(£I3/£Ii)  =  (£l3/ni).  Ahora  bien, 
aun  si  £(1)3)  =  Il3  y  £(r)i)  =  ITi,  puede  demostrarse  que  £(£13/1)1)  ±  £(n3)/£(rii);  es  decir,  la  esperanza  de 
la  razon  de  dos  variables  no  es  igual  a  la  razon  de  las  esperanzas  de  las  dos  variables.  Sin  embargo,  como  se 
muestra  en  el  apendice  20A.1,  plfm(n3/f)i)  =  plfm(fl3)/plfm(ni)  =  £[3/111),  puesto  que  £[3  y  1%  son  estima¬ 
dores  consistentes. 


Capftulo  20  Metodos  de  ecuaciones  simultaneas  719 


semejante  variable  instrumental?  Una  respuesta  esta  dada  por  el  metodo  de  mmimos  cuadrados 
en  dos  etapas  (MC2E),  desarrollado  independientemente  por  Henri  Theil12  y  Robert  Basmann.13 
Como  lo  indica  el  nombre,  el  metodo  comprende  dos  aplicaciones  sucesivas  de  MCO.  El  proceso 
es  el  siguiente: 

Etapa  1.  Para  eliminar  la  correlacion  probable  entre  Y\  y  m2,  efectue  primero  la  regresion 
de  Y\  sobre  todas  las  variables  predeterminadas  en  el  sistema  complete),  no  solamente  en  esa 
ecuacion.  En  el  presente  caso,  esto  significa  efectuar  la  regresion  de  Y\,  sobre  X\  y  Xi  de  la 
siguiente  manera: 

Y\t  —  flo  +  YliXu  +  h2X2t  +  ut  (20.4.B) 

donde  u,  son  los  residuos  de  MCO  tradicionales.  De  la  ecuacion  (20.4.3)  se  obtiene 

Y\t  —  Ao  +  Yl\X\,  +  (20.4.4) 

donde  Y\t  es  una  estimacion  del  valor  medio  de  Y condicional  de  las  X fijas.  Observe  que 
(20.4.3)  no  es  otra  cosa  que  una  regresion  en  forma  reducida  porque  solamente  las  variables 
exogenas  o  predeterminadas  aparecen  en  el  lado  derecho. 

La  ecuacion  (20.4.3)  puede  expresarse  ahora  como 

Yu  =  h,  +  u,  (20.4.5) 

lo  cual  muestra  que  la  Y\  estocastica  consta  de  dos  partes:  Y\„  que  es  una  combinacion  lineal 
de  las  X no  estocasticas,  y  un  componente  aleatorio  u,.  Siguiendo  la  teoria  de  MCO,  Y\,  y  u, 
no  estan  correlacionadas.  (^Por  que?) 

Etapa  2.  La  ecuacion  sobreidentificada  de  la  oferta  monetaria  puede  escribirse  ahora  como 

Yit  —  P20  +  Pn(Yit  +  ut)  +  U2t 

=  P20  +  PnYu  +  (u2t  +  PnUt)  (20.4.6) 

=  P20  +  P21  Y\t  +  u* 

en  donde  u*  =  U2t  +  P21  ut- 

A1  comparer  la  ecuacion  (20.4.6)  con  la  ecuacion  (20.4.2),  se  observa  que  son  muy  sirni- 
lares  en  apariencia,  siendo  la  unica  diferencia  que  Yt  ha  sido  reemplazada  por  Y\.  (',Cual  es 
la  ventaja  de  la  ecuacion  (20.4.6)?  Puede  mostrarse  que  aunque  en  la  ecuacion  original  de 
oferta  monetaria  Y\  esta  correlacionada  o  es  probable  que  este  correlacionada  con  el  termino 
de  perturbacion  m2  (de  aqui  resulta  que  MCO  sea  inapropiado),  Y\,  en  la  ecuacion  (20.4.6)  no 
esta  correlacionada  con  u*  asintoticamente,  es  decir,  en  muestras  grandes  (o  en  forma  mas 
precisa,  a  medida  que  el  tamano  de  la  muestra  aumenta  indefinidamente).  Como  resultado, 
puede  aplicarse  MCO  a  la  ecuacion  (20.4.6),  lo  cual  dare  estimaciones  consistentes  de  los 
parametros  de  la  funcion  de  oferta  de  dinero.14 


12  Henri  Theil,  "Repeated  Least-Squares  Applied  to  Complete  Equation  Systems",  The  Hague  Oficina  Central 
de  Planeacion,  Pafses  Bajos,  1953  (mimeografiada). 

13  Robert  L.  Basmann,  "A  Generalized  Classical  Method  of  Linear  Estimation  of  Coefficients  in  a  Structural 
Equation",  Econometrica,  vol.  25,  1957,  pp.  77-83. 

14 Observe  que  en  muestras  pequenas  es  probable  que  fit  este  correlacionada  con  u*.  La  razon  es  la  siguien¬ 
te:  de  la  ecuacion  (20.4.4)  se  ve  que  fit  es  una  combinacion  lineal  ponderada  de  las  X  predeterminadas 
con  las  fl  como  ponderaciones.  Ahora,  aun  si  las  variables  predeterminadas  son  verdaderamente  no  es¬ 
tocasticas,  las  fl,  siendo  estimadores,  son  estocasticas.  Por  consiguiente,  fit  tambien  es  estocastica.  Ahora 
bien,  del  analisis  de  las  ecuaciones  en  la  forma  reducida  y  de  la  estimacion  de  mfnimos  cuadrados  indirectos, 
es  claro  que  los  coeficientes  en  la  forma  reducida,  las  n,  son  funciones  de  las  perturbaciones  estocasticas, 
tales  como  1/2 •  Puesto  que  fn  depende  de  las  fl,  es  probable  que  este  correlacionada  con  U2,  que  es  un  com¬ 
ponente  de  u *;  como  resultado,  se  espera  que  fit  este  correlacionada  con  uf.  Pero,  como  se  menciono,  esta 
correlacion  desaparece  a  medida  que  el  tamano  de  la  muestra  tiende  a  infinito.  La  desventaja  de  todo 
esto  es  que  en  muestras  pequenas,  el  procedimiento  de  MC2E  puede  conducir  a  estimaciones  sesgadas. 
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Como  lo  indica  este  procedimiento  de  dos  etapas,  la  idea  basica  detras  de  MC2E  es  “purifi- 
car”  la  variable  explicativa  estocastica  Y\  de  la  influencia  de  la  perturbacion  estocastica  112.  Este 
objetivo  se  logra  efectuando  la  regresion  en  forma  reducida  de  Y\  sobre  todas  las  variables  pre- 
determinadas  en  el  sistema  (etapa  1),  obteniendo  las  estimaciones  Yu  y  reemplazando  Y\,  en  la 
ecuacion  original  por  las  Y\t  estimadas,  para  luego  aplicar  MCO  a  la  ecuacion  asi  transformada 
(etapa  2).  Los  estimadores  asi  obtenidos  son  consistentes,  es  decir,  convergen  hacia  sus  verdade- 
ros  valores  a  medida  que  el  tamano  de  la  muestra  aumenta  indefinidamente. 

Para  ilustrar  MC2E  aun  mas,  se  modifica  el  modelo  ingreso-oferta  monetaria  de  la  siguiente 
manera: 

Y\t=  fi\o  + fi\2Y2t  + Y\\X\t+ ynXit  +  u\t  (20.4.7) 

Ylt  —  PlO  +  fil\Y]t  +  Y23X3,  +  Y24%4t  +  U2t  (20.4.8) 

en  donde,  ademas  de  las  variables  ya  definidas,  Xj  =  el  ingreso  en  el  periodo  anterior  y  X4  =  la 
oferta  monetaria  en  el  periodo  anterior.  Tanto  X3  como  X4  son  predeterminadas. 

Puede  verificarse  facilmente  que  ambas  ecuaciones  (20.4.7)  y  (20.4.8)  estan  sobreidentifica- 
das.  Para  aplicar  MC2E  se  procede  de  la  siguiente  manera:  en  la  etapa  1  se  efectua  la  regresion 
de  las  variables  endogenas  sobre  todas  las  variables  predeterminadas  en  el  sistema.  Asi, 

Yu  —  ftio  +  fluAi,  +  ft  12X21  +  ft  13^3?  +  ft  14X4/  +  Ciit  (20.4.9) 

Y2t  =  PEo  +  h2iXu  +  YI22X2 1  +  Pl23^3f  +  1^24X4,  +  u2t  (20.4.10) 

En  la  etapa  2  se  remplazan  Y\  y  Y2  en  las  ecuaciones  originales  (estructurales)  por  sus  valores 
estimados  de  las  dos  regresiones  anteriores,  y  luego  se  efectuan  las  regresiones  por  MCO  de  la 
siguiente  manera: 

Y\t  —  P\o  +  P12Y21  +  YiiXu  +  yi2X2,  +  u*u  (20.4.1 1) 

Y2t  —  P20  +  P21  Yu  +  Y23XU  +  Y2aX4i  +  u\t  (20.4.1 2) 

en  donde  u*t  =  uu  +  PnU2t  y  u2t  —  u2t  +  P21UU ■  Las  estimaciones  asi  obtenidas  seran  consis¬ 
tentes. 

Observe  las  siguientes  caracteristicas  de  MC2E. 

1 .  Puede  aplicarse  a  una  ecuacion  individual  en  el  sistema  sin  tener  en  cuenta  directamente  nin- 
guna  otra  ecuacion  o  ecuaciones  en  el  mismo.  Por  tanto,  para  resolver  modelos  econometricos 
que  contienen  un  gran  numero  de  ecuaciones,  MC2E  ofrece  un  metodo  economico.  Por  esta 
razon,  el  metodo  ha  sido  extensamente  utilizado  en  la  practica. 

2.  A  diferencia  de  MCI,  que  proporciona  multiples  estimaciones  de  los  parametros  en  las  ecua¬ 
ciones  sobreidentificadas,  MC2E  proporciona  solamente  una  estimacion  por  parametro. 

3.  Es  facil  de  aplicar  porque  todo  lo  que  se  necesita  saber  es  el  numero  total  de  variables  exoge- 
nas  o  predeterminadas  en  el  sistema  sin  conocer  ninguna  otra  variable  en  el  mismo. 

4.  Aunque  esta  especialmente  disenado  para  manejar  ecuaciones  sobreidentificadas,  el  metodo 
tambien  puede  ser  aplicado  a  ecuaciones  exactamente  identificadas.  Pero  entonces  MCI  y 
MC2E  daran  estimaciones  identicas.  ((;Por  que?) 

5.  Si  los  valores  de  R2  en  las  regresiones  en  forma  reducida  (es  decir,  regresiones  de  la  primera 
etapa)  son  muy  altos,  por  ejemplo,  superan  0.8,  las  estimaciones  clasicas  por  MCO  y  las  de 
MC2E  estaran  muy  cercanas.  No  obstante,  este  resultado  no  debe  sorprender  porque  si  el 
valor  de  R2  en  la  primera  etapa  es  muy  alto,  significa  que  los  valores  estimados  de  las  varia¬ 
bles  endogenas  estan  muy  cercanos  a  sus  valores  observados  y,  por  tanto,  es  menos  probable 
que  estas  ultimas  esten  correlacionadas  con  las  perturbaciones  estocasticas  en  las  ecuaciones 
estructurales  originales.  ((',Por  que?)15  Sin  embargo,  si  los  valores  de  R2  en  las  regresiones  de 


15  En  caso  extremo,  si  R2  =  1  en  la  regresion  de  la  primera  etapa,  la  variable  explicativa  endogena  en  la 
ecuacion  original  (sobreidentificada)  sera  practicamente  no  estocastica.  (£Por  que?) 
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la  primera  etapa  son  muy  bajos,  las  estimaciones  por  MC2E  practicamente  no  tendran  signi- 
ficado  porque  se  estaran  remplazando  las  Y  originales  en  las  regresiones  de  la  segunda  etapa 
por  las  Y  estimadas  en  las  regresiones  de  la  primera  etapa,  las  cuales  representaran  esencial- 
mente  las  perturbaciones  en  las  regresiones  de  esta  etapa.  En  otras  palabras,  en  este  caso,  las 
Y  seran  “variables  representantes”  muy  deficientes  de  las  Y  originales. 

6.  Observe  que  en  los  resultados  de  la  regresion  por  MCI  en  la  ecuacion  (20.3 . 1 5)  no  se  determi- 
naron  los  errores  estandar  de  los  coeficientes  estimados  (por  las  razones  explicadas  en  la  nota 
10  de  pie  de  pagina).  Pero  estos  pueden  ser  determinados  para  las  estimaciones  por  MC2E 
puesto  que  los  coeficientes  estructurales  son  estimados  directamente  de  las  regresiones  de  la 
segunda  etapa  por  MCO.  Sin  embargo,  debe  tenerse  precaution  en  un  aspecto.  Los  errores  es¬ 
tandar  estimados  en  las  regresiones  de  la  segunda  etapa  deben  ser  modificados  porque,  como 
se  observo  en  la  ecuacion  (20.4.6),  el  termino  de  error  u*  es,  en  realidad,  el  termino  de  error 
original,  u2t  mas  P2\ut-  Por  tanto,  la  varianza  de  a*  no  es  exactamente  igual  a  la  varianza  de 
u2t  original.  Sin  embargo,  la  modification  requerida  puede  realizarse  facilmente  mediante  la 
formula  dada  en  el  apendice  20A,  section  20A.2. 

7.  A1  utilizar  MC2E,  tenga  en  mente  las  siguientes  observaciones  de  Henri  Theil: 

La  justification  estadlstica  de  MC2E  es  del  tipo  de  muestras  grandes.  Cuando  no  hay  variables  endo- 
genas  rezagadas,...  los  estimadores  de  los  coeficientes  por  MC2E  son  consistentes  si  las  variables 
exogenas  son  constantes  en  muestras  repetidas  y  si  las  perturbaciones  [que  aparecen  en  las  diversas 
ecuaciones  de  comportamiento  o  estructurales]...  son  independientes  e  identicamente  distribuidas  con 
medias  cero  y  varianzas  finitas...  Si  estas  dos  condiciones  se  satisfacen,  la  distribution  muestral  de  los 
estimadores  de  los  coeficientes  por  MC2E  se  aproxima  a  la  normal  para  muestras  grandes... 

Cuando  el  sistema  de  ecuaciones  contiene  variables  endogenas  rezagadas,  la  consistencia  y  la 
normalidad  de  muestras  grandes  de  los  estimadores  de  los  coeficientes  por  MC2E  requieren  una 
condition  adicional,...  que  a  medida  que  la  muestra  aumenta,  el  cuadrado  de  la  media  de  los  valores 
tornados  por  cada  variable  endogena  rezagada  converja  en  probabilidad  hacia  un  limite  positivo... 

Si  [las  perturbaciones  que  aparecen  en  las  diversas  ecuaciones  estructurales]  no  estan  distribuidas 
independientemente,  las  variables  endogenas  rezagadas  no  son  independientes  del  funcionamiento 
actual  del  sistema  de  ecuaciones...,  lo  que  significa  que  estas  variables  no  son  realmente  predeter- 
minadas.  Por  consiguiente,  si  estas  variables  son  consideradas  como  predeterminadas  en  el  procedi  - 
miento  de  MC2E,  los  estimadores  resultantes  no  son  consistentes.16 


20.5  MC2E:  ejemplo  numerico 


Para  ilustrar  el  metodo  de  MC2E,  considere  el  modelo  ingreso-oferta  monetaria  dado  anterior- 
mente  en  las  ecuaciones  (20.4.1)  y  (20.4.2).  Como  se  mostro,  la  ecuacion  de  la  oferta  monetaria 
esta  sobreidentificada.  Para  estimar  los  parametros  de  esta  ecuacion,  se  acude  al  metodo  de  mini- 
mos  cuadrados  en  dos  etapas.  La  informacion  requerida  para  el  analisis  esta  dada  en  la  tabla  20.2; 
esta  tabla  tambien  contiene  la  informacion  requerida  para  responder  algunas  de  las  preguntas 
hechas  en  los  ejercicios. 

Regresion  de  la  etapa  1 

Primero  se  efectua  la  regresion  de  la  variable  explicativa  estocastica  ingreso  Y\,  representada 
por  el  PIB,  sobre  las  variables  predeterminadas,  inversion  privada  X\  y  gastos  del  gobierno  X2, 
obteniendo  los  siguientes  resultados: 

Yu  —  2  689.848  +  1.8700XU+  2.0343X2f 

ee  =  (67.9874)  (0.1717)  (0.1075)  (20.5.1) 

t=  (39.5639)  (10.8938)  (18.9295)  R2  =  0.9964 


16 


Henri  Theil,  Introduction  to  Econometrics,  Prentice-Hall,  Englewood  Cliffs,  N.J.,  1978,  pp.  341-342. 
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TAB  LA  20.2 
PIB,  M2,  GASFED, 
BT6,  Estados  Unidos, 
1970-2005 

Fuente:  Economic  Report  of  the 
President ,  2007.  Tablas  B-2, 
B-69,  B-84  y  B-73. 


Observacion 

PIB  (KO 

M2  (Y2) 

IDPB  (X0 

GASFED  (X2) 

BT6  (X3) 

1970 

3  771.9 

626.5 

427.1 

201.1 

6.562 

1971 

3  898.6 

710.3 

475.7 

220.0 

4.511 

1972 

4  105.0 

802.3 

532.1 

244.4 

4.466 

1973 

4  341.5 

855.5 

594.4 

261.7 

7.178 

1974 

4  319.6 

902.1 

550.6 

293.3 

7.926 

1975 

4  311.2 

1  016.2 

453.1 

346.2 

6.122 

1976 

4  540.9 

1  152.0 

544.7 

374.3 

5.266 

1977 

4  750.5 

1  270.3 

627.0 

407.5 

5.510 

1978 

5  015.0 

1  366.0 

702.6 

450.0 

7.572 

1979 

5  173.4 

1  473.7 

725.0 

497.5 

10.017 

1980 

5  161.7 

1  599.8 

645.3 

585.7 

11.374 

1981 

5  291.7 

1  755.4 

704.9 

672.7 

13.776 

1982 

5  189.3 

1  910.3 

606.0 

748.5 

1 1 .084 

1983 

5  423.8 

2  126.5 

662.5 

815.4 

8.75 

1984 

5  813.6 

2  310.0 

857.7 

877.1 

9.80 

1985 

6  053.7 

2  495.7 

849.7 

948.2 

7.66 

1986 

6  263.6 

2  732.4 

843.9 

1  006.0 

6.03 

1987 

6  475.1 

2  831.4 

870.0 

1  041.6 

6.05 

1988 

6  742.7 

2  994.5 

890.5 

1  092.7 

6.92 

1989 

6  981 .4 

3  158.5 

926.2 

1  167.5 

8.04 

1990 

7  112.5 

3  278.6 

895.1 

1  253.5 

7.47 

1991 

7  100.5 

3  379.1 

822.2 

1  315.0 

5.49 

1992 

7  336.6 

3  432.5 

889.0 

1  444.6 

3.57 

1993 

7  532.7 

3  484.0 

968.3 

1  496.0 

3.14 

1994 

7  835.5 

3  497.5 

1  099.6 

1  533.1 

4.66 

1995 

8  031.7 

3  640.4 

1  134.0 

1  603.5 

5.59 

1996 

8  328.9 

3  815.1 

1  234.3 

1  665.8 

5.09 

1997 

8  703.5 

4  031.6 

1  387.7 

1  708.9 

5.18 

1998 

9  066.9 

4  379.0 

1  524.1 

1  734.9 

4.85 

1999 

9  470.3 

4  641.1 

1  642.6 

1  787.6 

4.76 

2000 

9  817.0 

4  920.9 

1  735.5 

1  864.4 

5.92 

2001 

9  890.7 

5  430.3 

1  598.4 

1  969.5 

3.39 

2002 

10  048.8 

5  774.1 

1  557.1 

2  101.1 

1.69 

2003 

10  301.0 

6  062.0 

1  613.1 

2  252.1 

1.06 

2004 

10  703.5 

6  411.7 

1  770.6 

2  383.0 

1.58 

2005 

11  048.6 

6  669.4 

1  866.3 

2  555.9 

3.40 

Notas:  Y\  =  PIB  =  producto  interno  bruto  (miles  de  millones  de  dolares,  ajustados  al  ano  2000). 

>2  =  M2  =  oferta  de  dinero  M2  (miles  de  millones  de  dolares). 

X\  =  IDPB  =  inversion  domestica  privada  bruta  (miles  de  millones  de  dolares,  ajustados  al  ano  2000). 
X2  =  GASFED  =  gasto  del  gobierno  federal  (miles  de  millones  de  dolares). 

X3  =  BT6  =  tasa  de  interes  de  los  bonos  del  Tesoro  a  6  meses  (%). 


Regresion  de  la  etapa  2 

Se  estima  ahora  la  funcion  de  oferta  monetaria  (20.4.2)  remplazando  la  variable  endogena  Y\  por 
Yl  estimada  de  la  ecuacion  (20.5.1)  (=  Yx) .  Los  resultados  son  los  siguientes: 


Y2,  =  -2  440.180  +  0.7920 Yu 

ee  =  (127.3720)  (0.0178) 

t=  (-19.1579)  (44.5246) 


R2  =  0.9831 


(20.5.2) 
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Ya  se  senalo  que  los  errores  estandar  estimados  dados  en  (20.5.2)  deben  ser  corregidos  en  la 
forma  sugerida  en  el  apendice  20. A,  seccion  20A.2.  Una  vez  realizada  esta  correccion  (la  ma- 
yorla  de  los  programas  econometricos  hacen  esto  rutinariamente),  se  obtienen  los  siguientes 
resultados: 


Y2t  =  —2  440.180  +  0.7920 Ylt 

ee  =  (126.9598)  (0.0212)  (20.5.B) 

t=  (-17.3149)  (37.3057)  i?2  =  0.9803 

Como  se  menciona  en  el  apendice  20A,  seccion  20A.2,  los  errores  estandar  dados  en  (20.5.3) 
no  difieren  mucho  de  aquellos  dados  en  (20.5.2),  debido  a  que  R2  en  la  regresion  de  la  primera 
etapa  es  muy  alto. 

Regresion  por  MCO 

Con  fines  comparativos,  se  presenta  la  regresion  de  las  existencias  de  dinero  sobre  el  ingreso, 
como  se  muestra  en  la  ecuacion  (20.4.2),  sin  “depurar”  la  Y\,  estocastica  de  la  influencia  del  ter- 
mino  de  perturbacion  estocastica: 

Y2i  =  -2  195.468  +  0.791 1  Y\t 

ee  =  (126.6460)  (0.0211)  (20.5.4) 

t=  (-17.3354)  (37.3812)  i?2  =  0.9803 

A1  comparar  los  resultados  “inapropiados”  de  MCO  con  la  regresion  de  la  etapa  2,  se  observa 
que  las  dos  regresiones  son  virtualmente  iguales.  ^Significa  esto  que  el  procedimiento  de  MC2E 
no  tiene  ningun  valor?  Definitivamente  no.  No  debe  sorprender  que  en  la  situation  actual  los  dos 
resultados  sean  practicamente  identicos  porque,  como  se  menciono  anteriormente,  el  valor  del 
R 2  en  la  primera  etapa  es  muy  alto,  igualando  practicamente  Y\,  con  Y\t  observado.  Por  consi- 
guiente,  en  este  caso  las  regresiones  por  MCO  y  de  la  segunda  etapa  seran  mas  o  menos  similares. 
Pero  no  hay  garantia  de  que  esto  suceda  en  cada  aplicacion.  Una  implication,  entonces,  es  que  en 
ecuaciones  sobreidentificadas  no  debe  aceptarse  el  procedimiento  clasico  de  MCO  sin  verificar 
la(s)  regresion(es)  de  la  segunda  etapa. 

Simultaneidad  entre  el  PIB  y  la  oferta  monetaria 

Para  averiguar  si  el  PIB  ( Y\ )  y  la  oferta  monetaria  ( Y2)  son  mutuamente  dependientes,  se  utiliza 
la  prueba  de  simultaneidad  de  Hausman  analizada  en  el  capitulo  19. 

Primero  se  efectua  la  regresion  del  PIB  sobre  X\  (gasto  de  inversion)  y  X2  (gasto  del  gobierno), 
las  variables  exogenas  en  el  sistema  (es  decir,  se  estima  la  regresion  en  la  forma  reducida).  De 
esta  regresion  se  obtiene  el  PIB  estimado  y  los  residuos  vt,  como  lo  indica  la  ecuacion  (19.4.7). 
Luego  se  efectua  la  regresion  de  la  oferta  monetaria  sobre  el  PIB  estimado  y  sobre  v,  para  obtener 
los  siguientes  resultados: 

Y2i  =  -2  198.297  +  0.7915Yi,  +  0.6984i>, 

ee  =  (129.0548)  (0.0215)  (0.2970)  (20.5.5) 

t=  (-17.0338)  (36.70016)  (2.3511) 

Puesto  que  el  valor  t  de  v,  es  estadisticamente  significativo  (el  valor  p  es  0.0263),  no  puede  recha- 
zarse  la  hipotesis  de  simultaneidad  entre  la  oferta  monetaria  y  el  PIB,  lo  cual  no  debe  sorprender. 
( Nota :  en  un  sentido  estricto,  esta  conclusion  es  valida  solo  en  muestras  grandes,  tecnicamente, 
a  medida  que  el  tamano  de  la  muestra  aumenta  de  manera  indefinida.) 
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Pruebas  de  hipotesis 

Suponga  que  se  desea  probar  la  hipotesis  de  que  el  ingreso  no  tiene  efecto  sobre  la  demanda  de 
dinero.  <(Se  puede  probar  esta  hipotesis  con  la  prueba  t  usual  de  la  regresion  estimada  (20.5.2)? 
Si,  siempre  y  cuando  la  muestra  sea  grande  y  se  corrijan  los  errores  estandar,  como  se  muestra 
en  la  ecuacion  (20.5.3);  se  puede  utilizar  la  prueba  t  para  probar  la  significance  de  un  coeficiente 
individual  y  la  prueba  F  para  probar  la  significance  conjunta  de  dos  o  mas  coeficientes,  utili- 
zando  la  formula  (8.4.7). 17 

(,Que  sucede  si  el  termino  de  error  en  una  ecuacion  estructural  esta  autocorrelacionado  y/o 
correlacionado  con  el  termino  de  error  de  otra  ecuacion  estructural  del  sistema?  Una  respuesta 
completa  a  esta  interrogante  se  sale  del  alcance  de  este  libro  y  es  mejor  dejarla  para  las  referencias 
(vease  la  referenda  dada  en  la  nota  7).  Sin  embargo,  existen  tecnicas  de  estimation  (tales  como  la 
tecnica  SURE  de  Zellner)  para  manejar  estas  complicaciones. 

Para  concluir  el  analisis  de  este  ejemplo  numerico,  cabe  anadir  que  los  paquetes  de  software 
modernos,  como  STATA  y  EViews,  realizan  por  lo  regular  los  diferentes  pasos  que  comprende  la 
aplicacion  de  MC2E.  Solo  por  motivos  pedagogicos  se  demostraron  los  detalles  de  MC2E.  Vease 
el  ejercicio  20.15. 


20.6  Ejemplos  ilustrativos 


En  esta  section  se  consideran  algunas  aplicaciones  de  los  metodos  de  ecuaciones 

simultaneas. 

EJEMPLO  20.1 

Publicidad,  concen¬ 
tration  y  margenes 
de  precios 

Para  estudiar  las  interrelaciones  entre  la  publicidad,  la  concentracion  (medida  por  la  razon  de 
concentracion)  y  los  margenes  precio-costo,  Allyn  D.  Strickland  y  Leonard  W.  Weiss  formularon 
el  siguiente  modelo  de  tres  ecuaciones.18 

Funcion  de  intensidad  de  la  publicidad : 

Ad/S  =  Oo  +  aiM  4-  a2(CD/S)  +  03C  +  O4C2  +  o5Cr  +  u6Dur 

(20.6.1) 

Funcion  de  concentracion: 

C=b0  +  fa,  (Ad/5)  +  b2(MES/S) 

(20.6.2) 

Funcion  del  margen  precio-costo: 

M  =  c0  +  d(K/5)  +  c2Cr  +  c3C+  c4  CD  +  c5(Ad/S)  +  c6(MES/5) 

(20.6.3) 

en  donde  Ad  =  gasto  en  publicidad 

S  =  valor  de  los  embarques 

C  =  razon  de  concentracion  de  cuatro  empresas 

CD  =  demanda  del  consumidor 

MES  =  escala  minima  de  eficiencia 

M  =  margen  precio/costo 

Gr  =  tasa  de  crecimiento  anual  de  la  produccion  industrial 

Dur  =  variable  dicotoma  para  la  industria  de  bienes  durables 

K  =  existencias  de  capital 

GD  =  medida  de  la  dispersion  geografica  de  la  produccion 

17  Pero  hay  que  tener  cuidado  con  lo  siguiente:  la  SCR  restringida  y  la  no  restringida  en  el  numerador  deben 
ser  calculadas  utilizando  la  Y  pronosticada  (como  en  la  etapa  2  de  MC2E)  y  la  SCR  en  el  denominador  esta 
calculada  utilizando  valores  observados  y  no  pronosticados  de  las  regresoras.  Para  una  explicacion  sencilla 

a  este  respecto,  vease  T.  Dudley  Wallace  y  J.  Lew  Silver,  Econometrics:  An  Introduction,  Addison-Wesley,  Rea¬ 
ding,  Mass.,  1988,  sec.  8.5. 

18  Vease  su  artlculo  "Advertising,  Concentration,  and  Price-Cost  Margins",  lournal  of  Political  Economy,  vol. 
84,  num.  5,  1976,  pp.  1109-1121. 
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EJEMPLO  20.1  Segun  las  condiciones  de  orden  para  la  identificacion,  la  ecuacion  (20.6.2)  esta  sobreidentifi- 

( continuation )  cada,  en  tanto  que  las  ecuaciones  (20.6.1)  y  (20.6.3)  estan  exactamente  identificadas. 

La  informacion  para  el  analisis  provino,  en  gran  parte,  del  Census  of  Manufacturers  de  1963 
y  cubrio  408  de  las  41  7  industrias  manufactureras  de  cuatro  dfgitos.  Las  tres  ecuaciones  fueron 
estimadas  inicialmente  por  MCO,  produciendo  los  resultados  que  aparecen  en  la  tabla  20.3. 
Para  corregir  por  el  sesgo  de  las  ecuaciones  simultaneas,  los  autores  reestimaron  el  modelo 
utilizando  MC2E.  Los  resultados  obtenidos  se  presentan  en  la  tabla  20.4.  Se  deja  al  lector  la 
comparacion  de  los  dos  resultados. 


TABLA  20.3 
Estimaciones  por 

Variable  dependiente 

Ad/S 

C 

M 

MCO  de  las  tres  ecua- 

ciones  (razones  t  entre 

Ec.  (20.6.1) 

Ec.  (20.6.2) 

Ec.  (20.6.3) 

parentesis) 

Constante 

-0.0314  (-7.45) 

0.2638  (25.93) 

0.1682  (17.15) 

C 

0.0554  (3.56) 

— 

0.0629  (2.89) 

C2 

-0.0568  (-3.38) 

— 

— 

M 

0.1123  (9.84) 

— 

— 

CD/S 

0.0257  (8.94) 

— 

— 

Cr 

0.0387  (1.64) 

0.2255  (2.61) 

Dur 

-0.0021  (-1.11) 

— 

— 

Ad/S 

— 

1.1613  (3.3) 

1.6536  (11.00) 

MES/S 

— 

4.1852  (18.99) 

0.0686  (0.54) 

K/S 

— 

— 

0.1123  (8.03) 

CD 

— 

— 

-0.0003  (-2.90) 

R2 

0.374 

0.485 

0.402 

gi 

401 

405 

401 

TABLA  20.4 

Estimaciones  de  mini- 

Variable  dependiente 

Ad/S 

C 

M 

mos  cuadrados  en  dos 

etapas  de  las  tres  ecua- 

Ec.  (20.6.1) 

Ec.  (20.6.2) 

Ec.  (20.6.3) 

ciones  (razones  t  entre 

Constante 

-0.0245  (-3.86) 

0.2591  (21.30) 

0.1736  (14.66) 

parentesis) 

C 

0.0737  (2.84) 

— 

0.0377  (0.93) 

C2 

-0.0643  (-2.64) 

— 

— 

M 

0.0544  (2.01) 

— 

— 

CD/S 

0.0269  (8.96) 

— 

— 

Cr 

0.0539  (2.09) 

— 

0.2336  (2.61) 

Dur 

-0.0018  (-0.93) 

— 

— 

Ad/S 

— 

1.5347  (2.42) 

1.6256  (5.52) 

MES/S 

— 

4.169  (18.84) 

0.1720  (0.92) 

K/S 

— 

— 

0.1165  (7.30) 

CD 

— 

— 

-0.0003  (-2.79) 

EJEMPLO  20.2 

Modelo  I  de  Klein 

En  el  ejemplo  18.6  se  analizo,  de  manera  breve,  el  modelo  pionero  de  Klein.  Inicialmente,  el  mo¬ 
delo  fue  estimado  para  el  periodo  1920-1941.  Los  datos  basicos  se  presentan  en  la  tabla  20.5, 
y  las  estimaciones  en  la  forma  reducida  por  MCO  y  por  MC2E  estan  dadas  en  la  tabla  20.6.  Se 
deja  al  lector  la  interpretacion  de  estos  resultados. 

(i continue i) 

EJEMPLO  20.2 

( continuation ) 


TAB  LA  20.6* 

Estimaciones  por 
MCO,  forma  redueida 
y  MC2E  del  modelo  I 
de  Klein 

Fuente:  G.  S.  Maddala,  Econo¬ 
metrics, ,  McGraw-Hill,  Nueva 
York,  1977,  p.  242. 


TAB  LA  20.5  Datos  basicos  para  el  modelo  I  de  Klein 


Ano 

C* 

P 

W 

/ 

K- 1 

X 

IV' 

C 

T 

1920 

39.8 

12.7 

28.8 

2.7 

180.1 

44.9 

2.2 

2.4 

3.4 

1921 

41.9 

12.4 

25.5 

-0.2 

182.8 

45.6 

2.7 

3.9 

7.7 

1922 

45.0 

16.9 

29.3 

1.9 

182.6 

50.1 

2.9 

3.2 

3.9 

1923 

49.2 

18.4 

34.1 

5.2 

184.5 

57.2 

2.9 

2.8 

4.7 

1924 

50.6 

19.4 

33.9 

3.0 

189.7 

57.1 

3.1 

3.5 

3.8 

1925 

52.6 

20.1 

35.4 

5.1 

192.7 

61.0 

3.2 

3.3 

5.5 

1926 

55.1 

19.6 

37.4 

5.6 

197.8 

64.0 

3.3 

3.3 

7.0 

1927 

56.2 

19.8 

37.9 

4.2 

203.4 

64.4 

3.6 

4.0 

6.7 

1928 

57.3 

21.1 

39.2 

3.0 

207.6 

64.5 

3.7 

4.2 

4.2 

1929 

57.8 

21.7 

41.3 

5.1 

210.6 

67.0 

4.0 

4.1 

4.0 

1930 

55.0 

15.6 

37.9 

1.0 

215.7 

61.2 

4.2 

5.2 

7.7 

1931 

50.9 

11.4 

34.5 

-3.4 

216.7 

53.4 

4.8 

5.9 

7.5 

1932 

45.6 

7.0 

29.0 

-6.2 

213.3 

44.3 

5.3 

4.9 

8.3 

1933 

46.5 

11.2 

28.5 

-5.1 

207.1 

45.1 

5.6 

3.7 

5.4 

1934 

48.7 

12.3 

30.6 

-3.0 

202.0 

49.7 

6.0 

4.0 

6.8 

1935 

51.3 

14.0 

33.2 

-1.3 

199.0 

54.4 

6.1 

4.4 

7.2 

1936 

57.7 

17.6 

36.8 

2.1 

197.7 

62.7 

7.4 

2.9 

8.3 

1937 

58.7 

17.3 

41.0 

2.0 

199.8 

65.0 

6.7 

4.3 

6.7 

1938 

57.5 

15.3 

38.2 

-1.9 

201.8 

60.9 

7.7 

5.3 

7.4 

1939 

61.6 

19.0 

41.6 

1.3 

199.9 

69.5 

7.8 

6.6 

8.9 

1940 

65.0 

21.1 

45.0 

3.3 

201.2 

75.7 

8.0 

7.4 

9.6 

1941 

69.7 

23.5 

53.3 

4.9 

204.5 

88.4 

8.5 

13.8 

11.6 

*  La  interpretacion  de  los  encabezados  de  las  columnas  se  describe  en  el  ejemplo  18.6. 

Fuente:  Esta  information  se  tomo  de  G.  S.  Maddala,  Econometrics ,  McGraw-Hill,  Nueva  York,  1977,  p.  238. 


MCO: 

C  =  16.237  +  0.193P  +  0.796(IV+ IV')  +  0.089P_i 
(1.203)  (0.091)  (0.040)  (0.090) 

7  =  1 0.1 25  +  0.479P  +  0.333P_i  —  0.1 1 2/C  i 
(5.465)  (0.097)  (0.100)  (0.026) 

IV  =  0.064  +  0.439X+  0.146X_i  +  0.1 30f 
(1.151)  (0.032)  (0.037)  (0.031) 

Forma  redueida: 


R2  =  0.978 
R2  =0.919 
R2  =0.985 


DW=  1.367 
DW=  1.810 
DW  =  1.958 


P  : 

=  46.383  + 

0.81  3P  t 

-  0.213/C 

,  +  0.01 5X_ 

(10.870) 

(0.444) 

(0.067) 

(0.252) 

IVTlV'  : 

=  40.278  + 

0.823P_i 

-  0.1 44 /C 

,  +  0.1 1 5X_ 

(8.787) 

(0.359) 

(0.054) 

(0.204) 

X  : 

=  78.281  + 

1 .724P_! 

-  0.319/C 

i  +  0.094X_ 

(18.860) 

(0.771) 

(0.110) 

(0.438) 

+  0.2971  —  0.9267+  0.443C 
(0.154)  (0.385)  (0.373) 

R2  =  0.753  DW  =  1.854 
+  0.8811-  0.5677+  0.859C 
(0.124)  (0.311)  (0.302) 

R2  =  0.949  DW  =  2.395 
+  0.8781-  0.5657+  1.317G 
(0.267)  (0.669)  (0.648) 

R2  =  0.882  DW  =  2.049 


MC2E: 

C  =  16.543  +  0.019P+  0.81 0(lV  +  IV')  +  0.214P_!  R2  =  0.9726 

(1.464)  (0.130)  (0.044)  (0.118) 

f  =  20.284  +  0.149P+  0.61 6P=i  -  0.157/C!  P2  =0.8643 


(8.361)  (0.191)  (0.180)  (0.040) 

IV  =  0.065  +  0.438X+  0.146X_!  +  0.1301  R2  =  0.9852 

(1.894)  (0.065)  (0.070)  (0.053) 


*La  interpretacion  de  las  variables  se  presenta  en  el  ejemplo  18.6  (los  errores  estandar  estan  entre  parentesis). 
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EJEMPLO  20.3 

Modelo  de  fijacion 
de  precios  de  ac- 
tivos  de  capital 
expresado  como  un 
sistema  recursivo 


En  una  aplicacion  poco  usual  de  los  modelos  recursivos  de  ecuaciones  simultaneas,  Cheng  F.  Lee 
y  W.  P.  Lloyd19  estimaron  el  siguiente  modelo  para  la  industria  petrolera: 


flu  =  <*  i 

Rlt  =  «2  +  /?21  /?1 1 

Rit  =  «3  +  /?3i  Rt  t  +  PuRit 

R4t  =  a4  +  fi4-\  /?1  f  +  ^42^21  +  P^Rlt 

Rst  =  “s  +  Pst  R-\  t  +  ^52^2(  +  PssRst  + 

^6/  =  “6  +  /?61  1  +  ^62^2/  +  ^63^3/  + 

^7/  =  «7  +  /S7I  1  +  ^7lRlt  +  ^73^3/  + 


+ 

ytMt  + 

Uu 

+ 

YiMt  + 

U2t 

+ 

yiMt  + 

Uit 

+ 

y4Mt  + 

U4t 

^54^4 1 

+ 

ysMt  + 

USt 

^64  ^4t  + 

^65^5/ 

+ 

YeMt  + 

U6t 

^74^4/  + 

^75^5/  +  /S76/?61 

:  + 

Y7Mt  + 

U7t 

donde  R-\  =  tasa  de  rendimiento  sobre  la  accion  1  (=  Imperial  Oil) 
R2  =  tasa  de  rendimiento  sobre  la  accion  2  (=  Sun  Oil) 


/?7  =  tasa  de  rendimiento  sobre  la  accion  7  (=  Standard  of  Indiana) 
Mt  =  tasa  de  rendimiento  sobre  el  fndice  de  mercado 
u,t  =  perturbaciones  (/=  1,  2,  .  .  . ,  7) 


Antes  de  presentar  los  resultados,  la  pregunta  obvia  es:  £como  se  selecciona  cual  es  la  accion 
1,  cual  es  la  accion  2,  y  asf  sucesivamente?  Lee  y  Lloyd  responden  esta  pregunta  en  forma  empf- 
rica.  Efectuan  la  regresion  de  la  tasa  de  rendimiento  de  la  accion  /'sobre  las  tasas  de  rendimiento 
de  las  seis  acciones  restantes  y  observan  la  R2  resultante.  Asf,  obtienen  siete  regresiones  de  este 
tipo.  Entonces  ordenan  los  valores  de  la  R2  estimados,  de  menor  a  mayor.  La  accion  que  tiene  la 
menor  R2  se  selecciona  como  la  accion  1  y  la  que  tiene  la  R2  mayor  se  selecciona  como  la  7. 
La  idea  detras  de  esto  es  intuitivamente  simple.  Si  la  R2  de  la  tasa  de  rendimiento  de,  por  ejem- 
plo,  Imperial  Oil  es  la  mas  baja  con  respecto  a  las  seis  acciones  restantes,  esto  indica  que  esta 
accion  es  la  menos  afectada  por  los  movimientos  en  los  rendimientos  de  las  demas  acciones. 
Por  consiguiente,  el  ordenamiento  causal,  de  existir,  va  de  esta  accion  hacia  las  otras,  y  no  hay 
realimentacion  procedente  de  las  otras  acciones. 

Aunque  puede  objetarse  este  enfoque  puramente  experimental  del  ordenamiento  causal,  en 
la  tabla  20.7  se  presentan  sus  resultados  empfricos. 

En  el  ejercicio  5.5  se  introdujo  la  tinea  caracteristica  de  la  teorfa  moderna  de  la  inversion,  que 
es  simplemente  la  regresion  de  la  tasa  de  rendimiento  de  la  accion  /'sobre  la  tasa  de  rendimiento 
del  mercado.  El  coeficiente  de  la  pendiente,  conocido  como  coeficiente  beta,  es  una  medida  de 
la  volatilidad  del  rendimiento  de  la  accion.  Los  resultados  de  la  regresion  de  Lee-Lloyd  proponen 
que  hay  relaciones  intraindustriales  significativas  entre  los  rendimientos  de  las  acciones,  ademas 
de  la  influencia  comun  del  mercado  representadas  por  la  cartera  del  mercado.  Asf,  el  rendi¬ 
miento  de  Standard  de  Indiana  depende  no  solamente  de  la  tasa  de  rendimiento  del  mercado 
sino,  ademas,  de  las  tasas  de  rendimiento  de  Shell  Oil,  Phillips  Petroleum  y  Union  Oil.  Para  plan- 
tear  la  idea  en  forma  diferente,  el  movimiento  de  la  tasa  de  rendimiento  de  Standard  de  Indiana 
puede  explicarse  mejor  si,  ademas  de  la  tasa  de  rendimiento  del  mercado,  se  consideran  las  tasas 
de  rendimiento  obtenidas  por  Shell  Oil,  Phillips  Petroleum  y  Union  Oil. 

( continua ) 


19  "The  Capital  Asset  Pricing  Model  Expressed  as  a  Recursive  System:  An  Empirical  Investigation",  Journal  of 
Financial  and  Quantitative  Analysis,  junio  de  1976,  pp.  237-249. 
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EJEMPLO  20.3 

( continuation ) 


TAB  LA  20.7  Estimaciones  del  sistema  recursivo  para  la  industria  petrolera 


Forma  lineal 
Variable  dependientes 


Standard 

Shell 

Phillips 

Union 

Standard 

Sun 

Imperial 

of  Indiana 

Oil 

Petroleum 

Oil 

of  Ohio 

Oil 

Oil 

Standard 
of  Indiana 

Shell  Oil 

0.2100* 

(2.859) 

Phillips 

0.2293* 

0.0791 

Petroleum 

(2.1  76) 

(1.065) 

Union  Oil 

0.1754* 

0.2171* 

0.2225* 

(2.472) 

(3.177) 

(2.337) 

Standard 

-0.0794 

0.0147 

0.4248* 

0.1468* 

of  Ohio 

(-1.294) 

(0.235) 

(5.501) 

(1.735) 

Sun  Oil 

0.1249 

0.1710* 

0.0472 

0.1339 

0.0499 

(1.343) 

(1.843) 

(0.355) 

(0.908) 

(0.271) 

Imperial  Oil 

-0.1077 

0.0526 

0.0354 

0.1580 

-0.2541* 

0.0828 

(-1.412) 

(0.6804) 

(0.319) 

(1.290) 

(-1.691) 

(0.971) 

Constante 

0.0868 

-0.0384 

-0.0127 

-0.2034 

0.3009 

0.2013 

0.3710* 

indice  de  mercado 

(0.681) 

(1.296)  ( 

-0.068) 

(0.986) 

(1.204) 

(1 .399) 

(2.161) 

0.3681* 

0.4997* 

0.2884 

0.7609* 

0.9089* 

0.7161* 

0.6432* 

(2.165) 

(3.039) 

(1.232) 

(3.069) 

(3.094) 

(4.783) 

(3.774) 

R2 

0.5020 

0.4658 

0.4106 

0.2532 

0.0985 

0.2404 

0.1247 

Durbin- 

2.1083 

2.4714 

2.2306 

2.3468 

2.2181 

2.3109 

1.9592 

Watson 


*  Denota  significancia  al  nivel  del  0. 10  o  mejor  para  la  prueba  de  dos  colas. 
Nota:  Los  valores  t  aparecen  entre  parentesis  debajo  de  los  coeficientes. 
Fuente:  Cheng  F.  Lee  y  W.P.  Lloyd,  op.  cit.,  tabla  3b. 


EJEMPLO  20.4 

Forma  revisada 
del  modelo  de 
San  Luis20 


El  conocido  y  controvertido  modelo  de  San  Luis,  desarrollado  originalmente  a  finales  del  dece- 
nio  de  los  afios  sesenta,  ha  sido  revisado  con  alguna  frecuencia.  Una  de  tales  revisiones  se  pre- 
senta  en  la  tabla  20.8  y  los  resultados  empfricos  basados  en  este  modelo  revisado  estan  dados 
en  la  tabla  20.9.  (Nota:  Un  punto  sobre  una  variable  representa  la  tasa  de  crecimiento  de  dicha 
variable.)  El  modelo  consiste  basicamente  en  las  ecuaciones  (1 ),  (2),  (4)  y  (5)  de  la  tabla  20.8;  las 
otras  ecuaciones  representan  las  definiciones.  La  ecuacion  (1)  fue  estimada  por  MCO.  Las  ecua¬ 
ciones  (1),  (2)  y  (4)  fueron  estimadas  utilizando  el  metodo  de  rezagos  distribuidos  de  Almon 
con  restricciones  (de  punto  final)  sobre  los  coeficientes.  En  donde  es  pertinente,  las  ecuaciones 
fueron  corregidas  por  correlacion  serial  de  primer  orden  (pi)  y/o  correlacion  serial  de  segundo 
orden  (pL). 

Al  examinar  los  resultados  se  observa  que  la  tasa  de  crecimiento  de  la  oferta  monetaria  es  el 
determinante  principal  de  la  tasa  de  crecimiento  del  PIB  (nominal)  y  no  la  tasa  de  crecimiento 
de  los  gastos  que  generan  un  alto  nivel  de  empleo.  La  suma  de  los  M  coeficientes  es  1 .06,  lo 
cual  indica  que  un  incremento  (sostenido)  de  1%  en  la  oferta  monetaria  conduce,  en  promedio, 
a  cerca  de  1 .06%  de  incremento  en  el  PIB  nominal.  Por  otra  parte,  la  suma  de  los  E  coeficientes, 
cercana  a  0.05,  indica  que  un  cambio  en  el  gasto  que  propicia  niveles  altos  de  empleo  por  parte 
del  gobierno  tiene  poco  impacto  sobre  la  tasa  de  crecimiento  del  PIB  nominal.  Se  deja  al  lector 
interpretar  los  resultados  de  las  demas  regresiones  que  aparecen  en  la  tabla  20.9. 
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EJEMPLO  20.4 

( continuation ) 


TAB  LA  20.8 

El  modelo  de  San  Luis 

(1) 

Y\  =C1  +  ECM/(Mt.,)+  EC£(ff-,)  +  ®1t 
/= 0  /= 0 

(2) 

Pt  =  C2+Yj  C PE,  (PEt_,)  +  E  CD/(Xt_/  — XF*_/i) 

/= 1  /= 0 

+  CPA(PAt)+  CDUM1  (DUM1)  +  CDUM2(DUM2)  +  s2t 

(3) 

PAt  =  E  CPRL/(Pt_/) 

(4) 

,=1  20 

RLt  =  C3  +  E  C PRL, (P t_/)  +  s3( 

/-  0 

(5) 

Ut- 

UFt  =  CG(GAPt)  +  CGI  (GAPt_i)  +  s4t 

(6) 

n=(pf/ioo)(xt) 

(7) 

Xf  =  [(n/n-/)4-i]ioo 

(8) 

X,  =  [(Xt/Xt_,)4  -  1]100 

(9) 

Pt  =  [(Pt/Pt-,)4-  1]100 

(10) 

GAP,=  [(XFt/Xt)/XFt]100 

(11) 

XFr=  [(XFt/X,-!)4  -  1]100 

Y  =  PIB  nominal 
M=  existencias  de  dinero  (Ml) 

E  =  gastos  que  arrojan  un  alto  nivel  de  empleo 
P  =  deflactor  del  PIB  (1972  =  100) 

PE  =  precio  relativo  de  la  energia 
X  =  produccion  en  dolares  de  1972 
XF  =  produccion  potencial  (Rasche/Tatom) 


RL  =  tasa  de  los  bonos  empresariales 
U  =  tasa  de  desempleo 
UF  =  tasa  de  desempleo  en  pleno  empleo 
DUM1  =  variable  dicotoma  de  control  (197 1  -III  a  1973-1  =  1; 

0  en  los  demas  casos) 

DUM2  =  variable  dicotoma  de  control  posterior  (1973-11  a  1975-1  =  1; 
0  en  los  demas  casos) 


Fuente:  Federal  Reserve  Bank  of  St.  Louis,  Review ,  mayo  de  1982,  p.  14. 


TAB  LA  20.9 

Estimacion  dentro  de 
la  muestra:  1960-1  a 
1980-IV  (el  valor  ab- 
soluto  del  estadistico  t 
esta  entre  parentesis) 

Fuente:  Federal  Reserve  Bank 
of  St.  Louis,  mayo  de  1982, 
p.  14. 


(1)  Yt=  2.44  +  0.40 Mt+  0.39 M,^+  0.22Mt_2+  0.0 6Mt-3~  0.01  /Wt_4 

(2.15)  (3.38)  (5.06)  (2.18)  (0.82)  (0.11) 

+  0.06  £  t  +  0.02ft-!  -  0.02 ff_2  —  0.02£'t_3+  0.01  £t_4 

(1.46)  (0.63)  (0.57)  (0.52)  (0.34) 

R1 2 * 4 5  =  0.39  ee  =  3.50  DW=2.02 

(2)  Pt  =  0.96  +  0.01  PEt_!  +  0.04PEf_2  -  0.01  PEt_3  +  0.02PEt_4 

(2.53)  (0.75)  (1.96)  (0.73)  (1.38) 

-  0.00(Xt- XFf)  +  0.01(Xt_n-XFt*_i)  +  0.02(Xt_2—  XF*_2) 

(0.18)  (1.43)  (4.63) 

+  0(02(Xt_3-  XFr_3)+  0.02(X,_4-  XF?-4  +  0(01  (Xt_5-  XF?-5) 

(3.00)  (2.42)  (2.16) 

+  1  (03(PAt)  —  0.61  (DUMIf)  +  1.65(DUM2t) 

(10.49)  (1.02)  (2.71) 

R2  =  0.80  ee  =  1 .28  DW=1.97  p  =  0.12 

_  20 

(4)  RL,=  2.97  +  0.96 ^  Pt_; 

(3.12)  (5.22)'  ° 

R2  =  0.32  ee  =  0.33  DW=1.76  p  =  0.94 

(5)  L/p-UFt  =  0.28(CAPt)+  0.14(GAPt_!) 

(11.89)  (6.31) 

R2  =  0.63  ee  =  0.1  7  DW=1.95 


pi  =  1 .43  p2  =  0.52 
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Resumen  y 
conclusiones 


EJERCICIOS 


1.  Si  en  un  modelo  de  ecuaciones  simultaneas  una  ecuacion  esta  identificada  (en  forma  exacta  o 
sobreidentificada),  se  dispone  de  diversos  metodos  para  estimarla. 

2.  Estos  metodos  se  clasifican  en  dos  categorias  generales:  metodos  uniecuacionales  y  metodos 
de  sistemas. 

3.  Por  razones  de  economia,  errores  de  especificacion,  etc.,  los  metodos  uniecuacionales  son  los 
mas  comunes.  Una  caracteristica  unica  de  estos  metodos  es  que  es  posible  estimar  aislada- 
mente  una  ecuacion  que  forma  parte  de  un  modelo  multiecuacional  sin  preocuparse  mucho  de 
las  otras  ecuaciones  del  sistema.  ( Nota :  Para  fines  de  identificacion,  sin  embargo,  las  demas 
ecuaciones  en  el  sistema  si  cuentan.) 

4.  Tres  metodos  uniecuacionales  comunmente  utilizados  son:  MCO,  MCI  y  MC2E. 

5.  Aunque  el  de  MCO  en  general  es  inapropiado  en  el  contexto  de  los  modelos  de  ecuaciones 
simultaneas,  puede  ser  aplicado  a  los  modelos  recursivos  en  donde  hay  una  relacion  causa  y 
efecto  definida  pero  unidireccional  entre  las  variables  endogenas. 

6.  El  metodo  de  MCI  es  apropiado  para  ecuaciones  precisas  o  exactamente  identificadas.  Me- 
diante  este  metodo,  se  aplica  MCO  a  la  ecuacion  en  la  forma  reducida,  y  es  a  partir  de  los 
coeficientes  de  dicha  forma  que  se  estiman  los  coeficientes  estructurales  originales. 

7.  El  metodo  de  MC2E  esta  disenado  en  especial  para  ecuaciones  sobreidentificadas,  aunque 
tambien  puede  aplicarse  a  ecuaciones  exactamente  identificadas.  Pero  entonces  los  resultados 
de  MC2E  y  MCI  son  identicos.  La  idea  basica  detras  de  MC2E  es  reemplazar  la  variable 
explicativa  endogena  (estocastica)  por  una  combinacion  lineal  de  variables  predeterminadas 
en  el  modelo  y  utilizar  esta  combinacion  como  variable  explicativa  en  lugar  de  la  variable  en¬ 
dogena  original.  El  metodo  MC2E  se  parece  entonces  al  metodo  de  estimacion  de  variables 
instrumentales,  en  el  cual  la  combinacion  lineal  de  las  variables  predeterminadas  sirve  como 
instrumento  o  variable  representante  para  la  regresora  endogena. 

8.  Una  caracteristica  importante  sobre  MCI  y  MC2E  es  que  las  estimaciones  obtenidas  son  con- 
sistentes;  es  decir,  a  medida  que  el  tamano  de  la  muestra  aumenta  indefinidamente,  las  esti¬ 
maciones  convergen  hacia  sus  verdaderos  valores  poblacionales.  Las  estimaciones  pueden 
no  satisfacer  las  propiedades  de  muestra  pequena  tales  como  el  insesgamiento  y  la  varianza 
minima.  Por  consiguiente,  los  resultados  obtenidos  mediante  la  aplicacion  de  estos  metodos 
a  muestras  pequenas,  asi  como  las  inferencias  obtenidas  de  ellos  deben  ser  interpretados  con 
la  debida  precaucion. 


Preguntas 

20.1  Determine  si  cada  una  de  las  siguientes  afirmaciones  es  verdadera  o  falsa: 

a)  El  metodo  de  MCO  no  es  aplicable  para  estimar  una  ecuacion  estructural  en  un  mo¬ 
delo  de  ecuaciones  simultaneas. 

b )  En  caso  de  que  una  ecuacion  no  sea  identificada,  MC2E  no  es  aplicable. 

c)  El  problema  de  la  simultaneidad  no  surge  en  un  modelo  recursivo  de  ecuaciones  si¬ 
multaneas. 

d)  Los  problemas  de  simultaneidad  y  de  exogeneidad  significan  lo  mismo. 

e)  El  metodo  de  MC2E  y  otros  metodos  de  estimacion  de  ecuaciones  estructurales  tie- 
nen  propiedades  estadisticas  deseables  solamente  en  muestras  grandes. 

/)  En  los  modelos  de  ecuaciones  simultaneas  no  existe  un  concepto  similar  al  de  R2. 

*g)  El  metodo  de  MC2E  y  otros  metodos  de  estimacion  de  ecuaciones  estructurales  no 
son  aplicables  si  los  errores  de  la  ecuacion  estan  autocorrelacionados  y/o  estan  corre- 
lacionados  entre  ecuaciones. 

/?)  Si  una  ecuacion  esta  exactamente  identificada,  MCI  y  MC2E  dan  resultados  identi¬ 
cos. 


Opcional. 
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20.2.  (',Por  que  no  es  necesario  aplicar  el  metodo  de  minimos  cuadrados  en  dos  etapas  a  ecua¬ 
ciones  exactamente  identificadas? 

20.3.  Considere  el  siguiente  modelo  keynesiano  modificado  de  determinacion  del  ingreso: 


C,  —  pw  +  Pn  Y,  +  u\t 
h  —  P20  +  Pi\Yt  +  PiiYt-i  +  U21 
Yt  =  C,  +  I,+  G, 


en  donde  C  =  gasto  de  consumo 
/  =  gasto  de  inversion 
Y  =  ingreso 

G  =  gasto  del  gobierno 

Gt  y  Y,-  1  se  suponen  predeterminados. 

a)  Obtenga  las  ecuaciones  en  forma  reducida  y  determine  cuales  de  las  ecuaciones  ante- 
riores  estan  identificadas  (en  forma  exacta  o  sobreidentificadas). 

b)  ^Cual  metodo  puede  utilizarse  para  estimar  los  parametros  de  la  ecuacion  sobreiden- 
tificada  y  de  la  ecuacion  exactamente  identificada?  Justifique  la  respuesta. 

20.4.  Considere  los  siguientes  resultados:* 


R 2  =  0.924 


MCO:  W,  =  0.276  +  0.258 P,  +  0.046P,_i  +  4.959  V, 


MCO:  P,  =  2.693  +  0.232^  -  0.544X,  +  0.247M,  +  0.064M,_!  R2  =  0.982 


R2  =  0.920 


MC2E:  W,  =  0.272  +  0.257P,  +  0.046/', _i  +  4.966V, 


MC2E:  P,  =  2.686  +  0.233  W,  -  0.544X,  +  0.246 M,  +  0.046M,_!  R2  =  0.981 

en  donde  Wt,  Pt,  M,  y  X,  son  los  cambios  porcentuales  en  las  ganancias,  los  precios, 
los  precios  de  importacion  y  la  productividad  laboral  (todos  los  cambios  porcentuales  se 
calculan  con  base  en  el  ano  anterior),  respectivamente,  y  donde  V,  representa  las  vacantes 
de  empleo  sin  ocupar  (porcentaje  del  numero  total  de  empleados). 

“Puesto  que  los  resultados  de  MCO  y  MC2E  son  practicamente  identicos,  MC2E  no 
tiene  ningun  valor.”  Comente. 

^20. 5.  Suponga  que  la  produccion  esta  caracterizada  por  la  funcion  de  produccion  Cobb- 


Douglas 


en  donde  Q  =  produccion 


K  —  insumo  capital 
L  —  insumo  trabajo 


A,  a  y  P  =  parametros 

i  =  i-esima  empresa 


Dado  el  precio  de  la  produccion  final  P,  el  precio  del  trabajo  Wy  el  precio  del  capital  R, 
y  suponiendo  maximizacion  de  utilidades,  se  obtiene  el  siguiente  modelo  empirico  de 
produccion: 

Funcion  de  produccion: 


In  Q,  —  In  A  +  a  In  K ,  +  p  In  L,  +  In  u\. 


(1) 


*  Fuente:  Prices  and  Earnings  in  i  951-1 969:  An  Econometric  Assessment,  Department  of  Employment,  Reino 
Unido,  Her  Majesty's  Stationery  Office,  Londres,  1971,  p.  30. 

+  Opcional. 
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Funcion  del producto  marginal  del  trabajo'. 

W 

In  Qi  —  —  In  p  +  In  L,  +  In  -  +  In  m2; 

Funcion  del  producto  marginal  del  capital'. 

p 

In  Qi  —  —  In  a  +  In  K,  +  In  +  In  M3; 


(2) 

(3) 


en  donde  m1;  m2  y  M3  son  las  perturbaciones  estocasticas. 

En  el  modelo  anterior  hay  tres  ecuaciones  con  tres  variables  endogenas  Q,Ly  K.  P,R 
y  W  son  exogenas. 

a)  /.Cuales  problemas  se  encuentran  al  estimar  el  modelo  si  a  +  p  =  1,  es  decir,  cuando 
hay  rendimientos  constantes  a  escala? 

b)  Aun  si  a  +  p  /  1,  /.se  pueden  estimar  las  ecuaciones?  Responda  considerando  la 
identificacion  del  sistema. 

c)  Si  el  sistema  no  esta  identificado,  /.que  puede  hacerse  para  convertirlo  en  identifica- 
ble? 


Nota :  Las  ecuaciones  (2)  y  (3)  se  obtienen  al  diferenciar  Q  con  respecto  al  trabajo  y  al 
capital,  respectivamente,  igualandolos  a  W/P  y  R/P,  transformando  las  expresiones  re- 
sultantes  en  logaritmos  y  agregando  (el  logaritmo  de)  los  terminos  de  perturbacion. 

20.6.  Considere  el  siguiente  modelo  de  demanda  y  oferta  de  dinero: 

Demanda  de  dinero:  M?  =  f}0  +  Yi  +  fi2Rt  +  Pi Pt  +  u\, 

Oferta  de  dinero:  Mst  —  ao  +  oi\Yt  +  m2; 

en  donde  M  =  dinero 
Y  =  ingreso 
R  —  tasa  de  interes 
P  —  precio 

Suponga  que  Ry  P  estan  predeterminados. 

a)  /.Esta  identificada  la  funcion  de  demanda? 

b)  ^Esta  identificada  la  funcion  de  oferta? 

c)  (',Cual  metodo  se  utilizaria  para  estimar  los  parametros  de  la(s)  ecuacion(es) 
identificada(s)?  (',Poi'  que? 

d)  Suponga  que  se  modifica  la  funcion  de  oferta  agregando  las  variables  explicativas 
7,_i  y  M,_  1.  (',Que  sucede  con  el  problema  de  la  identificacion?  ^Sc  utilizaria  aun  el 
metodo  que  utilizo  en  (c)?  ^Por  que  si  o  por  que  no? 

20.7.  Remitase  al  ejercicio  18.10.  Para  el  sistema  de  dos  ecuaciones  se  obtuvieron  las  ecuacio¬ 
nes  en  forma  reducida  y  se  estimaron  sus  parametros.  Estime  la  regresion  por  mlnimos 
cuadrados  indirectos  del  consumo  sobre  el  ingreso  y  compare  los  resultados  con  la  regre¬ 
sion  por  MCO. 

Ejercicios  empiricos 

20.8.  Considere  el  siguiente  modelo: 

Rt  —  P  0  +  P\Mt  +  p2Yt  +  mi, 

Y,  —  a  0  +  ct\Rt  +  u2t 


en  donde  M,  (oferta  monetaria)  es  exogena,  R,  es  la  tasa  de  interes  y  7,  es  el  PIB. 

a)  /.Como  se  justificaria  el  modelo? 

b)  /.Estan  identificadas  las  ecuaciones? 

c)  Con  la  informacion  dada  en  la  tabla  20.2,  estime  los  parametros  de  las  ecuaciones 
identificadas.  Justifique  el  (los)  metodo(s)  que  se  utiliza(n). 
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20.9.  Suponga  que  en  el  ejercicio  20.8  se  cambia  el  modelo  de  la  siguiente  manera: 

Rt  —  Po  +  P\M,  +  p2Y,  +  P2tYt_i  +u\t 
Yt  —  ao  +  oq Rt  +  u2t 

a)  Averigiie  si  el  sistema  esta  identificado. 

b)  Con  la  informacion  dada  en  la  tabla  20.2,  estime  los  parametros  de  la(s)  ecuacion(es) 
identificada(s). 

20.10.  Considere  el  siguiente  modelo: 

Rt  —  P  o  +  P\Mt  +  p2Y,  +  uit 
Y,  —  a  o  +  tt\Rt  +  0*2  h  +  «2 1 

en  donde  las  variables  estan  definidas  como  en  el  ejercicio  20.8.  A1  considerar/( inversion 
domestica)  y  M  exogenamente,  determine  la  identificacion  del  sistema.  Utilizando  la  in¬ 
formacion  de  la  tabla  20.2,  estime  los  parametros  de  la(s)  ecuacion(es)  identificada(s). 

20. 1 1 .  Suponga  que  se  cambia  el  modelo  del  ejercicio  20. 1 0  de  la  siguiente  manera: 

Rt  —  Po  +  PiM,  +  fcYt  +  uit 

Yt  —  do  +  u\ Rt  +  a2It  +  u2t 
It  —  Yo  +  Yi  Rt  +  M3 1 

Suponga  que  M  esta  determinado  exogenamente. 

a)  Determine  cuales  ecuaciones  estan  identificadas. 

b )  Estime  los  parametros  de  la(s)  ecuacion(es)  identificada(s)  utilizando  la  informacion 
de  la  tabla  20.2.  Justifique  el  (los)  metodo(s). 

20. 12.  Verifique  los  errores  estandar  presentados  en  (20.5.3). 

20.13.  Remitase  al  modelo  de  demanda  y  oferta  dado  en  las  ecuaciones  (20.3.1)  y  (20.3.2).  Su¬ 
ponga  que  la  funcion  de  oferta  se  altera  de  la  siguiente  manera: 

Qt  —  A)  +  PiPt-i  +  nit 

en  donde  Pt~  i  es  el  precio  predominante  en  el  periodo  anterior. 

a)  Si  X  (gasto)  y  Pt~i  estan  predeterminadas,  ^,existe  un  problema  de  simultaneidad? 

b)  Si  existe,  (',estan  determinadas  cada  una  de  las  funciones  de  demanda  y  de  oferta?  Si 
lo  estan,  obtenga  las  ecuaciones  en  forma  reducida  y  estimelas  con  base  en  la  infor¬ 
macion  dada  en  la  tabla  20. 1 . 

c)  (ririiedcn  derivarse  los  coeficientes  estructurales  a  partir  de  los  coeficientes  en  la  forma 
reducida?  Muestre  los  calculos  necesarios. 

20. 14.  Ejercicio  en  clase:  Considere  el  siguiente  modelo  macroeconomico  simple  para  la  econo- 
mia  estadounidense  durante  el  periodo  1960-1999.* 

Funcion  consumo  privado: 

Ct  —  ao  +  aq  Y,  +  aqC,-!  +U\t  a\  >  0,  0  <  a2  <  1 
Funcion  inversion  privada  bruta: 

It  —  P o  +  P\  Yt  +  p2Rt  +  p2It-i  +  u2t  Pi  >  0,  p2  <  0,  0  <  p2  <  1 
Funcion  de  demanda  de  dinero: 

Rt  —  ^  o  +  MYt  +  X2Mt_i  +  Pt  +  X/[Rt—i  +  u2t 

Xi  >  0,  X2  <  0,  A3  >  0,  0  <  k4  <  1 


*  Adaptado  de  H.R.  Seddighi,  K.A.  Lawler  y  A.V.  Katos,  Econometrics:  A  Practical  Approach,  Routledge,  Nueva 
York,  2000,  p.  204. 
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Identidad  de  ingreso: 

Yt  =  Ct  +  It  +  G, 

en  donde  C  —  consumo  privado  real,  /  =  inversion  privada  bruta  real,  G  =  gasto  guberna- 
mental  real,  Y  —  PIB  real,  M=  oferta  de  dinero  M2  a  precios  actuales,  R  —  tasa  de  interes 
a  largo  plazo  (%)  y  P  —  indice  de  precios  al  consumidor.  Las  variables  endogenas  son  C, 
I,RyY.  Las  variables  predeterminadas  son:  Ct_ i,  It-\,  Mt_\,  Pt,  R,_i  y  G,  mas  el  termino 
del  intercepto.  Las  u  son  los  terminos  de  error. 

a)  Al  utilizar  la  condicion  de  orden  para  la  identificacion,  determine  cual  de  las  cuatro 
ecuaciones  es  exactamente  identificada  o  sobreidentificada. 

b)  /Que  metodo(s)  se  utiliza(n)  para  calcular  las  ecuaciones  identificadas? 

c)  Obtenga  datos  apropiados  de  fuentes  gubernamentales  y/o  privadas,  estime  el  modelo 
y  comente  los  resultados. 

20.15.  En  este  ejercicio  se  examinaran  los  datos  de  534  trabajadores,  obtenidos  de  la  Current 
Population  Survey  (CPS)  correspondiente  a  1985.  Los  datos  se  presentan  en  la  tabla  20. 10 
del  sitio  web*  del  libro  de  texto.  Las  variables  de  esta  tabla  se  definen  como  sigue: 

W  =  salarios  $,  por  hora;  occup  =  ocupacion;  sector  =  1  para  industria  manufacturera, 
2  para  construccion,  0  para  otras;  union  =  1  si  es  trabajador  sindicalizado,  0  en  caso 
contrario;  educ  =  anos  de  escolaridad;  exper  =  experiencia  laboral  en  anos;  age  =  edad 
en  anos;  sex  =  1  para  mujeres;  marital  status  =  1  si  es  casado;  race  =  1  para  otros,  2  para 
hispanos,  3  para  blancos;  region  =  1  si  vive  en  el  sur  de  Estados  Unidos. 

Considere  el  siguiente  modelo  sencillo  de  determinacion  de  salarios: 

In  W  —  j3i  +  ft  Educ  +  /J3  Exper  +  /^Exper2  +  u,-  (1) 

a)  Suponga  que  la  escolaridad,  al  igual  que  los  salarios,  es  endogena.  /Como  se  puede 
averiguar  si  en  la  ecuacion  (1)  la  escolaridad  es,  en  efecto,  endogena?  Use  los  datos 
presentados  en  la  tabla  para  el  analisis. 

b)  /La  prueba  de  Hausman  sustenta  el  analisis  realizado  en  (a)?  Proporcione  una  expli- 
cacion  exhaustiva. 

20. 16.  Ejercicio  en  clase:  Considere  el  siguiente  modelo  de  demanda  y  oferta  para  prestamos  de 
bancos  comerciales  a  empresas: 

Demanda:  Qdt  —  oq  +  +  ahRJD,  +  a^IPI,  +  U\, 

Oferta:  Qst  —  +  fcRt  +  ftRS ,  +  /J4TBD t  +  U21 

en  donde  Q  —  total  de  prestamos  de  bancos  comerciales  (miles  de  millones  de  dolares); 
R  =  tasa  preferencial  promedio;  RS  =  tasa  de  interes  de  los  pagares  del  Tesoro  a  3  meses; 
RD  —  calificacion  AAA  de  los  bonos  corporativos;  IPI—  indice  de  produccion  industrial; 
y  TBD  =  total  de  depositos  bancarios. 

a)  Recopile  datos  sobre  estas  variables  para  el  periodo  1980-2007  de  varias  fuentes, 
como  www.economagic.com,  el  sitio  Web  del  Banco  de  la  Reserva  Federal  de  San 
Luis,  o  cualquier  otra  fuente. 

b)  ^Estan  identificadas  las  funciones  de  demanda  y  oferta?  Indique  cuales  variables  son 
endogenas  y  cuales  son  exogenas. 

c)  /.Como  podria  estimar  las  funciones  de  demanda  y  oferta  indicadas  con  anterioridad? 
Realice  los  calculos  necesarios. 

d)  /Por  que  se  incluyen  R  y  RS  en  el  modelo?  /Que  papel  desempena  IPI  en  el  mo¬ 
delo? 


Los  datos  se  encuentran  publicados  en  la  Web,  en  http://lib.stat.cmu.edu/datasets/cps_85_wages. 
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Apendice  20A 


20A.1  Sesgo  en  los  estimadores  de  mfnimos 
cuadrados  indirectos 


Para  mostrar  que  los  estimadores  de  MCI,  aunque  consistentes,  estan  sesgados,  se  utiliza  el  modelo  de 
demanda  y  oferta  dado  en  las  ecuaciones  (20.3.1)  y  (20.3.2).  Dc  (20.3.10)  se  obtiene 


Pi  = 


fh 

fli 


Ahora 


y 


ft3 


E  chxt 

E*,2 


de  la  ecuacion  (20.3.7) 


fti 


Em 

E*2 


de  la  ecuacion(20.3.5) 


Por  consiguiente,  al  sustituir,  se  obtiene 


Pi 


E  cuxt 

T.PtXt 


(i) 


Al  utilizar  (20.3.3)  y  (20.3.4),  se  obtiene 


Pt  =  Fli*,  +  (w,  -  w)  (2) 

q,  =  n 3xt  +  (v,  -  v)  (3) 


en  donde  w  yv  son  los  valores  de  las  medias  de  w,  y  vt,  respectivamente. 
Al  sustituir  (2)  y  (3)  en  (1),  se  obtiene 

S  =  n3  E*2  +  T,(yt  ~  v)xt 
1  riiE x?  +  -  w)x, 

=  n3  +  E(v'  -v)x,)  E^2 

Hi  +E(W7  -w)x,)  E^,2 


Puesto  que  el  operador  E  de  valor  esperado  es  un  operador  lineal,  no  se  puede  tomar  la  esperanza  de  (4), 
aunque  esta  claro  que  generalmente  fi\  ^  (n3/I"li).  (^Por  que?) 

Pero,  a  medida  que  el  tamano  de  la  muestra  tiende  a  infinite,  se  puede  obtener 


pllm(iSi) 


pllm  n3  +  pllm  E(v?  -  v)*f )  E  -1'2 

pllm  n i  +  pllm  E(>V(  -  w)xt)  E xt 


(5) 


en  donde  se  hace  uso  de  las  propiedades  de  pllm,  a  saber: 

pllm  (  A  +  B)  =  pllm  A  +  pllm  B  y  pllm 

Ahora  bien,  a  medida  que  el  tamano  de  la  muestra  aumenta  indefinidamente,  el  segundo  termino  tanto  en 
el  denominador  como  en  el  numerador  de  (5)  tiende  a  cero  (^.por  que?),  lo  cual  genera 

pllmG8i)  =  7T  (6) 

Hi 


A  \  pllm  A 
B  )  pllm  B 


lo  que  muestra  que,  aunque  sea  sesgado,  /Si  es  un  estimador  consistente  de  fi\. 
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20.A.2  Estimacion  de  los  errores  estandar  de  los 
estimadores  de  MC2E 


El  proposito  de  este  apendice  es  mostrar  que  los  errores  estandar  de  las  estimaciones,  obtenidos  de  la  regre¬ 
sion  de  la  segunda  etapa  del  procedimiento  de  MC2E,  utilizando  la  formula  aplicable  en  la  estimacion  por 
MCO,  no  son  estimaciones  “apropiadas”  de  los  “verdaderos”  errores  estandar.  Para  ver  esto,  se  utiliza  el 
modelo  del  ingreso  y  oferta  monetaria  dado  en  las  ecuaciones  (20.4. 1)  y  (20.4.2).  Se  estiman  los  parametros 
de  la  funcion  de  oferta  monetaria  sobreidentificada  a  partir  de  la  regresion  de  la  segunda  etapa  como 

Yit  =  P20  +  Pi\  Y\t  +  u*  (20.4.6) 


en  donde 


U*=U2t+P2lUt  (7) 

Ahora  bien,  cuando  se  efectua  la  regresion  (20.4.6),  el  error  estandar  de  P21,  por  ejemplo,  se  obtiene  de  la 
siguiente  expresion: 


var(/32i) 


(8) 


en  donde 


-2  E(“D2  UY2,-P20-P2lYu)2 

°u*  =  - j -  OD 

n  —  2  n  —  2 

Pero  a2,  no  es  lo  mismo  que  a22,  puesto  que  el  ultimo  es  una  estimacion  insesgada  de  la  verdadera  va- 
rianza  de  112-  Esta  diferencia  puede  verificarse  facilmente  en  (7).  Para  obtener  la  verdadera  a22  (como  se 
definio  anteriormente),  se  precede  de  la  siguiente  manera: 


U2t  =  Y21  —  $20  —  P21  Yu 


en  donde  P20  y  P21  son  las  estimaciones  de  la  regresion  de  la  segunda  etapa.  Por  tanto, 

£2  _  Y^Yit  ~  P20  ~  P21  Y\t)2 

Observe  la  diferencia  entre  (9)  y  (10):  en  (10)  se  utiliza  la  7i  observada  mas  que  la  Y\  estimada  de  la  regre¬ 
sion  de  la  primera  etapa. 

Despues  de  estimar  (10),  la  forma  mas  facil  de  corregir  los  errores  estandar  de  los  coeficientes  estimados 
en  la  regresion  de  la  segunda  etapa  es  multiplicar  cada  uno  de  ellos  por  aui/aux ■  Observe  que  si  Y\,  y  Y\, 
estan  muy  cerca  una  de  la  otra,  es  decir,  la  R2  en  la  regresion  de  la  primera  etapa  es  muy  alta,  el  factor  de 
correccion  aui/aut  estara  cercano  a  1,  en  cuyo  caso  los  errores  estandar  estimados  en  la  regresion  de  la 
segunda  etapa  pueden  considerarse  como  estimaciones  verdaderas.  En  otras  situaciones  debera  utilizarse  el 
factor  de  correccion  anterior. 


Capitulo 


Econometria  de  series 
de  tiempo:  algunos 
conceptos  basicos 

En  el  capitulo  1  mencionamos  que  uno  de  los  dos  tipos  importantes  de  informacion  para  el  ana- 
lisis  emplrico  lo  conforman  las  series  de  tiempo.  En  este  capitulo  y  el  siguiente  estudiaremos  en 
detalle  tal  informacion,  pues  plantea  diversos  desafios  a  econometristas  y  profesionales. 

En  primer  lugar,  el  trabajo  empirico  basado  en  series  de  tiempo  supone  que  la  serie  de  tiempo 
en  cuestion  es  estacionaria.  Aunque  en  el  capitulo  1  presentamos  una  idea  intuitiva  de  estaciona¬ 
riedad,  en  este  capitulo  analizaremos  este  concepto  con  mas  profundidad.  Mas  especificamente, 
trataremos  de  averiguar  el  significado  de  estacionariedad  y  la  razon  por  la  cual  se  debe  tener  en 
cuenta. 

En  segundo  lugar ,  en  el  capitulo  12,  sobre  la  autocorrelacion,  analizamos  varias  de  sus  causas. 
A  veces  la  autocorrelacion  se  origina  porque  las  series  de  tiempo  subyacentes  no  son  estacio- 
narias. 

En  tercer  lugar ,  al  efectuar  la  regresion  de  una  variable  de  serie  de  tiempo  sobre  otra  variable 
de  serie  de  tiempo  con  frecuencia  se  obtiene  una  R 2  muy  elevada  (superior  a  0.9)  aunque  no 
haya  una  relacion  significativa  entre  las  dos.  En  ocasiones  no  se  espera  ninguna  relacion  entre 
las  dos  variables;  sin  embargo,  una  regresion  de  una  variable  sobre  la  otra  a  menudo  muestra  una 
relacion  significativa.  Esta  situacion  ejemplifica  el  problema  de  la  regresion  espuria,  o  dispara- 
tada,  cuya  naturaleza  analizaremos  en  breve.  Por  consiguiente,  es  muy  importante  averiguar  si 
la  relacion  entre  las  variables  economicas  es  verdadera  o  espuria.  En  este  capitulo  veremos  como 
aparece  una  regresion  espuria  cuando  las  series  de  tiempo  no  son  estacionarias. 

En  cuarto  lugar,  algunas  series  de  tiempo  financieras,  como  los  precios  de  las  acciones,  mues- 
tran  lo  que  se  conoce  como  fenomeno  de  caminata  aleatoria.  Lo  anterior  significa  que  la  mejor 
prediction  para  el  precio  de  una  action,  por  ejemplo  de  IBM,  es  igual  a  su  precio  actual  mas 
un  choque  puramente  aleatorio  (o  termino  de  error).  De  ser  asi,  el  pronostico  del  precio  de  las 
acciones  seria  un  ejercicio  inutil. 

En  quinto  lugar,  los  modelos  de  regresion  que  consideran  series  de  tiempo  son  muy  comunes 
para  los  pronosticos.  En  vista  de  lo  expuesto,  deseamos  saber  si  tal  pronostico  es  valido  cuando 
las  series  de  tiempo  sobre  las  cuales  se  basa  no  son  estacionarias. 

Por  ultimo,  las  pruebas  de  causalidad  de  Granger  y  Sims,  analizadas  en  el  capitulo  1 7,  supo- 
nen  que  las  series  de  tiempo  del  analisis  son  estacionarias.  Por  consiguiente,  deben  afectuarse 
antes  las  pruebas  para  la  estacionariedad  que  las  de  causalidad. 

Desde  el  principio,  resulta  necesaria  una  advertencia.  El  tema  del  analisis  de  las  series  de 
tiempo  es  muy  amplio  y  siempre  esta  en  evolution;  ademas,  algunas  matematicas  propias  de  las 
diversas  tecnicas  del  analisis  de  las  series  de  tiempo  son  tan  complejas  que  lo  mejor  que  se  puede 
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esperar  de  una  obra  introductoria  como  esta  es  que  proporcione  un  panorama  general  de  algunos 
conceptos  fundamentales.  Para  quienes  deseen  mas  informacion,  se  proporcionan  referencias 
bibliograficas.1 


21.1  Repaso  rapido  a  una  seleccion  de  series  de  tiempo 
economicas  de  Estados  Unidos 


Para  empezar  y  dar  al  lector  una  idea  de  algunos  conceptos  un  tanto  esotericos  del  analisis  de  se¬ 
ries  de  tiempo  de  este  capitulo,  es  util  considerar  varias  series  de  tiempo  economicas  de  Estados 
Unidos  de  interes  general.  Estas  series  de  tiempo  son: 

1PD  =  ingreso  personal  disponible  real  (miles  de  millones  de  dolares) 

PIB  =  producto  interno  bruto  (miles  de  millones  de  dolares) 

GCP  =  gasto  de  consumo  personal  real  (miles  de  millones  de  dolares) 

UE  =  utilidades  empresariales  (miles  de  millones  de  dolares) 

Dividendo  =  dividendos  (miles  de  millones  de  dolares) 

El  periodo  que  abarcan  estas  cifras  trimestrales  es  de  1-1947  a  IV-2007,  para  un  total  de  244 
trimestres,  y  todos  los  datos  se  ajustaron  por  estacionalidad  a  la  tasa  anual.  Todos  los  datos  se 
recopilaron  de  FRED,  el  sitio  Web  del  Banco  de  la  Reserva  Federal  de  San  Luis  sobre  economla. 
El  PIB,  IPD  y  GCP  se  expresan  en  dolares  constantes,  en  este  caso  dolares  de  2000.  Las  UE  y 
los  dividendos  se  expresan  en  dolares  nominales. 

Para  ahorrar  espacio,  los  datos  basicos  se  encuentran  en  el  sitio  Web  del  libro  de  texto.  Sin  em¬ 
bargo,  para  dar  una  idea  de  estos  datos,  trazamos  las  graficas  correspondientes  en  las  siguientes 
dos  figuras.  La  figura  21.1  es  una  grafica  de  los  datos  de  los  logaritmos  del  PIB,  IPD  y  GCP  y 
en  la  figura  21.2  presentamos  los  logaritmos  de  las  otras  dos  series  de  tiempo  (UE  y  Dividendo). 
Es  practica  comun  graficar  el  logaritmo  de  una  serie  de  tiempo  para  tener  una  idea  de  la  tasa  de 
crecimiento  de  dicha  serie.  Una  grafica  de  los  datos  es  por  lo  general  el  primer  paso  en  el  analisis 
de  series  de  tiempo.  En  estas  figuras,  la  letra  L  denota  el  logaritmo  natural. 

La  primera  impresion  de  estas  dos  figuras  es  que  todas  estas  series  de  tiempo  parecen  “tender” 
hacia  arriba,  aunque  con  algunas  fluctuaciones.  Suponga  que  deseamos  especular  sobre  la  forma 
de  estas  curvas  mas  alia  del  periodo  muestral,  por  ejemplo,  para  todos  los  trimestres  de  2008. 2 
Esto  es  factible  si  se  conoce  el  mecanismo  estadlstico,  o  estocastico,  o  el  proceso  de  generation 
de  datos  (PGD)  que  dio  origen  a  estas  curvas.  Pero  (',cual  es  ese  mecanismo?  Para  responder  esta 
y  otras  preguntas  relacionadas  es  necesario  estudiar  cierto  vocabulario  “nuevo”  que  han  definido 
los  analistas  de  series  de  tiempo  y  que  explicaremos  a  continuation. 


1  En  un  nivel  introductorio,  estas  referencias  pueden  ser  utiles:  Gary  Koop,  Analysis  of  Economic  Data,  John 
Wiley  &  Sons,  Nueva  York,  2000;  Jeff  B.  Cromwell,  Walter  C.  Labys  y  Michel  Terraza,  Univariate  Test  for  Time 
Series  Models,  Sage,  California,  Ansbury  Park,  1994;  Jeff  B.  Cromwell,  Michael  H.  Hannan,  Walter  C.  Labys  y 
Michel  Terraza,  Multivariate  Tests  for  Time  Series  Models,  Sage,  California,  Ansbury  Park,  1994;  H.R.  Seddighi, 
K.A.  Lawler  y  A.V.  Katos,  Econometrics:  A  Practical  Approach,  Routledge,  Nueva  York,  2000.  Para  un  nivel 
intermedio,  vease  Walter  Enders,  Applied  Econometric  Time  Series,  John  Wiley  &  Sons,  Nueva  York,  1995; 

Kerry  Patterson,  An  Introduction  to  Applied  Econometrics:  A  Time  Series  Approach,  St.  Martin's  Press,  Nueva 
York,  2000;  T.C.  Mills,  The  Econometric  Modelling  of  Financial  Time  Series,  2a.  ed.,  Cambridge  University  Press, 
Nueva  York,  1999;  Marno  Verbeek,  A  Guide  to  Modern  Econometrics,  John  Wiley  &  Sons,  Nueva  York,  2000; 
Wojciech  W.  Charemza  y  Derek  F.  Deadman,  New  Directions  in  Econometric  Practice:  General  to  Specific  Mode¬ 
lling  and  Vector  Autoregression,  2a.  ed.,  Edward  Elgar  Publisher,  Nueva  York,  1997.  Para  un  nivel  avanzado, 
consulte  J.D.  Hamilton,  Time  Series  Analysis,  Princeton  University  Press,  Princeton,  Nueva  Jersey,  1 994;  asf 
como  G.S.  Maddala  e  In-Moo  Kim,  Unit  Roots,  Cointegration,  and  Structural  Change,  Cambridge  University 
Press,  1998.  En  el  nivel  de  aplicaciones,  consulte  B.  Bhaskara  Rao  (ed.),  Cointegration  for  the  Applied  Econo¬ 
mist,  St.  Martin's  Press,  Nueva  York,  1994,  y  Chandan  Mukherjee,  Howard  White  y  Marc  Wuyts,  Econometrics 
and  Data  Analysis  for  Developing  Countries,  Routledge,  Nueva  York,  1 998. 

2  Desde  luego,  ya  se  tienen  los  datos  reales  para  este  periodo  y  se  podrfan  comparar  con  los  datos  que  se 
"predijeron"  con  base  en  el  periodo  anterior. 
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FIGURA  21.1 

Logaritmos  del  PIB,  IPD 
y  GCP  reales,  Estados 
Unidos,  1947-2007  (por 
trimestre,  miles  de 
millones  de  dolares). 

Nota:  En  la  figura,  la  letra  L 
denota  el  logaritmo  natural. 


FIGURA  21.2 

Logaritmos  de  utilidades 
empresariales  (UE)  y  di- 
videndos,  Estados  Unidos, 
1947-2007  (por  trimestre, 
miles  de  millones  de  do¬ 
lares). 

Nota:  L  denota  logaritmo. 


21.2  Conceptos  fundamentales* 1 2 3 4 5 6 7 8 9 


pCual  es  este  vocabulario?  Consta  de  conceptos  como: 

1 .  Procesos  estocasticos 

2.  Procesos  estacionarios 

3.  Procesos  puramente  aleatorios 

4.  Procesos  no  estacionarios 

5.  Variables  integradas 

6.  Modelos  de  caminata  aleatoria 

7.  Cointegracion 

8.  Tendencias  deterministas  y  estocasticas 

9.  Pruebas  de  raiz  unitaria 

En  las  siguientes  secciones  analizaremos  cada  concepto.  El  analisis  a  menudo  sera  heuristico. 
Siempre  que  sea  posible,  y  util,  proporcionaremos  ejemplos  adecuados. 


3  El  siguiente  analisis  se  basa  en  Maddala  et  al.,  op.  cit.,  Charemza  et  at.,  op.  cit.,  y  Carol  Alexander,  Market 
Models:  A  Guide  to  Financial  Data  Analysis,  John  Wiley  &  Sons,  Nueva  York,  2001 . 
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21.3  Procesos  estocasticos 


Un  proceso  estocastico  o  aleatorio  es  una  coleccion  de  variables  aleatorias  ordenadas  en  el 
tiempo.4  Si  Y denota  una  variable  aleatoria  y  es  continua,  se  denota  como  Y(t),  pero  si  es  discreta 
se  expresa  como  Yt.  Un  ejemplo  del  primer  tipo  es  un  electrocardiograma,  y  del  segundo  tipo, 
el  PIB,  IPD,  etc.  En  vista  de  que  la  mayoria  de  los  datos  economicos  se  recopilan  en  puntos  dis¬ 
cretes  de  tiempo,  para  los  propositos  de  esta  seccion  utilizaremos  la  notation  Y,  en  vez  de  Y(t). 
Si  Y representa  al  PIB,  para  los  datos  anteriores  se  tiene  Y\,  Y2,  U,,  .  .  .  ,Y2ai,  P243,  I244,  donde  el 
subindice  1  denota  la  primera  observacion  (es  decir,  el  PIB  del  primer  trimestre  de  1947)  y 
el  subindice  244  senala  la  ultima  observacion  (es  decir,  el  PIB  del  cuarto  trimestre  de  2007). 
Tenga  en  cuenta  que  cada  una  de  estas  Y  es  una  variable  aleatoria. 

(',En  que  sentido  podemos  considerar  al  PIB  un  proceso  estocastico?  Considere  por  ejemplo 
el  PIB  real  de  3  759  997  millones  de  dolares  del  primer  trimestre  de  1970.  En  teoria,  la  cifra  del 
PIB  del  primer  trimestre  de  1970  puede  ser  cualquier  digito,  segun  el  clima  economico  y  politico. 
La  cifra  3  759  997  es  una  realizacion  particular  de  todas  esas  posibilidades.5  Por  tanto,  podemos 
decir  que  el  PIB  es  un  proceso  estocastico  y  que  los  valores  reales  observados  en  el  periodo  del 
primer  trimestre  de  1947  al  cuarto  de  2007  son  realizaciones  particulares  de  ese  proceso  (es 
decir,  una  muestra).  La  distincion  entre  el  proceso  estocastico  y  su  realizacion  es  semejante  a  la 
diferencia  entre  poblacion  y  muestra  en  datos  de  corte  transversal.  De  la  misma  forma  como  ha- 
cemos  inferencias  sobre  la  poblacion  a  partir  de  datos  muestrales,  efectuamos  inferencias  sobre 
el  proceso  estocastico  subyacente  en  las  series  de  tiempo  mediante  la  realizacion. 

Procesos  estocasticos  estacionarios 

Un  tipo  de  proceso  estocastico  que  ha  recibido  gran  atencion  y  ha  sido  objeto  de  escrutinio  por 
parte  de  los  analistas  de  series  de  tiempo  es  el  proceso  estocastico  estacionario.  En  terminos 
generates,  se  dice  que  un  proceso  estocastico  es  estacionario  si  su  media  y  su  varianza  son  cons- 
tantes  en  el  tiempo  y  si  el  valor  de  la  covarianza  entre  dos  periodos  depende  solo  de  la  distancia 
o  rezago  entre  estos  dos  periodos,  v  no  del  tiempo  en  el  cual  se  calculo  la  covarianza.  En  la 
bibliografia  sobre  series  de  tiempo,  un  proceso  estocastico  como  este  se  conoce  como  proceso 
estocastico  debilmente  estacionario,  estacionario  covariante,  estacionario  de  segundo  orden 
o  proceso  estocastico  en  amplio  sentido.  Para  efectos  de  este  capitulo,  y  en  la  mayoria  de  las 
situaciones  practicas,  basta  este  tipo  de  estacionariedad.6 

Para  explicar  la  estacionariedad  debil,  sea  Y,  una  serie  de  tiempo  estocastica  con  estas  propie- 
dades: 


Media:  E(Yt)  — /j.  (21.3.1) 

Varianza:  var  (Yt)  —  E(Yt  —  p.)2  =  a2  (21.3.2) 

Covarianza:  y^  —  E[(Yt  —  p)(Yt+k  —  /1)]  (21.3.3) 

donde  y la  covarianza  (o  autocovarianza)  en  el  rezago  k,  es  la  covarianza  entre  los  valores  de  Y, 
y  Yt+k,  es  decir,  entre  dos  valores  Y  scparados  k  periodos.  Si  k  =  0,  obtenemos  yo,  que  es  simple- 


4  El  termino  "estocastico"  proviene  de  la  palabra  griega  "stokhos",  que  significa  "bianco"  u  "objetivo".  Si 
alguna  vez  ha  jugado  a  los  dardos  con  el  proposito  de  atinarle  al  bianco,  ^cuantas  veces  acerto?  De  un  cen- 
tenar  de  tiros,  quiza,  si  tuvo  mucha  suerte,  le  atino  al  bianco  unas  cuantas  veces;  en  las  otras  ocasiones,  los 
dardos  se  esparcieron  aleatoriamente  alrededor  del  bianco. 

s  El  valor  de  3  759  997  millones  de  dolares  se  puede  considerar  el  valor  medio  de  todos  los  valores  posibles 
del  PIB  para  el  primer  trimestre  de  1 970. 

6  Una  serie  de  tiempo  es  estrictamente  estacionaria  si  todos  los  momentos  de  su  distribucion  de  probabili- 
dad,  y  no  solo  los  dos  primeros  (es  decir,  la  media  y  la  varianza),  son  invariantes  respecto  del  tiempo.  Sin 
embargo,  si  el  proceso  estacionario  es  normal,  el  proceso  estocastico  debilmente  estacionario  tambien  es 
estrictamente  estacionario,  pues  el  proceso  estocastico  normal  esta  del  todo  especificado  por  sus  dos  mo¬ 
mentos,  la  media  y  la  varianza. 
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mente  la  varianza  de  Y(  —  a2);  si  k  =  1,  y\  es  la  covarianza  entre  dos  valores  adyacentes  de  Y,  el 
tipo  de  covarianza  encontrada  en  el  capitulo  12  (recuerde  el  esquema  autorregresivo  de  primer 
orden  de  Markov). 

Suponga  que  el  origen  de  Y  se  desplaza  de  Y,  a  Yt+m  (por  ejemplo,  del  primer  trimestre  de 
1947  al  primero  de  1952  de  los  datos  del  P1B).  Ahora,  si  esperamos  que  Y,  sea  estacionaria,  la 
media,  la  varianza  y  la  covarianza  de  Yt+m  deben  ser  las  mismas  que  las  de  Y,.  En  resumen,  si 
una  serie  de  tiempo  es  estacionaria,  sit  media,  su  varianza  y  su  autocovarianza  (en  los  diferentes 
rezagos)  permanecen  iguales  sin  importar  el  momento  en  el  cual  se  midan;  es  decir,  son  inva- 
riantes  respecto  del  tiempo.  Tal  serie  de  tiempo  tendera  a  regresar  a  su  media  (llamada  reversion 
media  )  y  las  fluctuaciones  alrededor  de  esta  media  (medida  por  su  varianza)  tendran  una  ampli- 
tud  constante  en  terminos  generales.7  Para  decirlo  de  otro  modo,  un  proceso  estacionario  no  se 
desvia  demasiado  de  su  valor  medio  debido  a  la  varianza  finita.  Como  veremos  enseguida,  esto 
no  ocurre  con  los  procesos  estocasticos  no  estacionarios.  Debemos  senalar  que,  en  un  proceso 
estacionario,  la  velocidad  de  la  reversion  media  depende  de  las  autocovarianzas:  es  rapida  si  las 
autocovarianzas  son  pequenas  y  lenta  cuando  son  grandes,  como  veremos  en  breve. 

Si  una  serie  de  tiempo  no  es  estacionaria  en  el  sentido  antes  definido,  se  denomina  serie 
de  tiempo  no  estacionaria  (recuerde  que  hablamos  solo  de  estacionariedad  debil).  En  otras 
palabras,  una  serie  de  tiempo  no  estacionaria  tendra  una  media  que  varia  con  el  tiempo  o  una 
varianza  que  cambia  con  el  tiempo,  o  ambas. 

(',Por  que  las  series  de  tiempo  estacionarias  son  tan  importantes?  Porque  si  una  serie  de  tiempo 
es  no  estacionaria,  solo  podemos  estudiar  su  comportamiento  durante  el  periodo  en  considera- 
cion.  Por  tanto,  cada  conjunto  de  datos  perteneciente  a  la  serie  de  tiempo  correspondent  a  un 
episodio  particular.  En  consecuencia,  no  es  posible  generalizar  para  otros  periodos.  Asi,  para 
propositos  de  pronostico,  tales  series  de  tiempo  (no  estacionarias)  tienen  poco  valor  practico. 

^Como  sabemos  que  una  determinada  serie  de  tiempo  es  estacionaria?  En  particular,  <,las 
series  de  tiempo  de  las  figuras  21.1  y  2 1 .2  son  estacionarias?  Analizaremos  este  tema  importante 
en  las  secciones  21.8  y  21.9,  cuando  estudiemos  varias  pruebas  para  la  estacionariedad.  Pero,  si 
juzgamos  solo  con  el  sentido  comun,  parece  que  las  series  de  tiempo  de  las  figuras  21.1  y  21.2 
son  no  estacionarias,  al  menos  en  sus  valores  medios.  Hablaremos  de  todo  esto  mas  adelante. 

Antes  de  continuar,  debemos  mencionar  un  tipo  especial  de  proceso  estocastico  (o  de  series 
de  tiempo):  el  proceso  puramente  aleatorio  o  de  ruido  bianco.  Se  dice  que  un  proceso  es  pura- 
mente  aleatorio  si  tiene  una  media  igual  a  cero,  una  varianza  constante  er 2  y  no  esta  serialmente 
correlacionado.8  Recordara  que  supusimos  que  el  termino  de  error  u,  que  entra  en  el  modelo 
clasico  de  regresion  lineal  — estudiado  en  la  parte  1  de  este  libro —  era  un  proceso  de  ruido 
bianco  denotado  por  ut  ~  I1DN(0,  a2);  es  decir,  u,  esta  independiente  e  identicamente  distribuido 
como  una  distribution  normal  con  media  cero  y  varianza  constante.  Este  proceso  se  conoce  como 
proceso  gaussiano  de  ruido  bianco. 

Procesos  estocasticos  no  estacionarios 

Aunque  nuestro  interes  se  centra  en  las  series  de  tiempo  estacionarias,  a  menudo  se  topa  uno 
con  series  de  tiempo  no  estacionarias,  cuyo  ejemplo  clasico  es  el  modelo  de  caminata  aleatoria 
(MCA).9  A  menudo  decimos  que  los  precios  de  valores,  como  las  acciones  o  las  tasas  de  cambio, 
siguen  una  caminata  aleatoria;  es  decir,  son  no  estacionarios.  Hay  dos  tipos  de  caminatas  aleato- 
rias:  1)  caminata  aleatoria  sin  deriva  o  sin  desvio  (es  decir,  sin  termino  constante  o  de  intercepto), 
y  2)  caminata  aleatoria  con  deriva  o  con  desvio  (es  decir,  hay  un  termino  constante). 


7  Esta  observation  pertenece  a  Keith  Cuthbertson,  Stephen  G.  Hall  y  Mark  P.  Taylor,  Applied  Econometric  Tech¬ 
niques,  The  University  of  Michigan  Press,  p.  1  30. 

8  Si  tambien  es  independiente,  tal  proceso  se  conoce  como  estrictamente  de  ruido  bianco. 

9  El  termino  "caminata  aleatoria"  a  menudo  se  compara  con  el  caminar  de  un  borracho.  Al  dejar  la  cantina, 
el  borracho  se  mueve  una  distancia  aleatoria  ut  en  el  tiempo  f  y  continua  caminando  de  manera  indefinida, 
con  lo  cual  a  la  larga  se  aleja  cada  vez  mas  de  la  cantina.  Lo  mismo  se  dice  de  los  precios  de  las  acciones.  El 
precio  de  hoy  de  las  acciones  es  igual  al  precio  de  ayer  mas  un  choque  aleatorio. 
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Caminata  aleatoria  sin  deriva 

Suponga  que  u,  es  un  termino  de  error  de  ruido  bianco,  con  media  0  y  varianza  a2.  Entonces 
decimos  que  la  serie  Y,  es  una  caminata  aleatoria  si 


Y,  =  Yt.l+ut  (21.3.4) 

En  el  modelo  de  caminata  aleatoria,  como  se  ve  en  (21.3.4),  el  valor  de  Y en  el  tiempo  t  es  igual 
a  su  valor  en  el  tiempo  {t  —  1)  mas  un  choque  aleatorio;  por  tanto,  es  un  modelo  AR(1),  en  el 
lenguaje  de  los  capitulos  12  y  17.  Podemos  pensar  que  (21.3.4)  es  una  regresion  de  Ye n  el  tiempo 
t  sobre  su  valor  rezagado  un  periodo.  Los  defensores  de  la  hipotesis  del  mercado  de  capital  efi- 
ciente  argumentan  que  los  precios  de  las  acciones  son  en  esencia  aleatorios  y,  por  tanto,  no  hay 
lugar  para  la  especulacion  redituable  en  el  mercado  de  valores:  si  se  pudiese  predecir  el  precio  de 
las  acciones  del  dia  siguiente  con  base  en  su  precio  del  dia  anterior,  todos  seriamos  millonarios. 

Ahora  bien,  de  (21.3.4),  podemos  escribir 

Y\  =  Y0  +  u  i 

Y2  —  Y\  +  U2  —  Yo  +  III  +  U2 

Yi  =  Y2  +  U2  =  Yq  +  Ml  +  U2  +  M3 


En  general,  si  el  proceso  comenzo  en  el  tiempo  0  con  un  valor  de  Yq,  tenemos 


TC 

II 

+ 

M 

(21.3.5) 

Por  tanto, 

E(  Yt)  =  E  (f0  +  J2  u)  =  (t,Por  que?) 

(21.3.6) 

De  igual  forma  se  demuestra  que 

var  (7,)  =  to 2 

(21.3.7) 

Como  revelan  las  expresiones  anteriores,  la  media  de  Y es  igual  a  su  valor  inicial  (constante),  pero 
conforme  se  incrementa  t,  su  varianza  aumenta  de  manera  indefinida,  lo  que  viola  una  condition 
de  la  estacionariedad.  En  resumen,  el  MCA  sin  deriva  es  un  proceso  estocastico  no  estacionario. 
En  la  practica,  Yo  a  menudo  se  iguala  a  cero,  en  cuyo  caso  E(Yt)  =  0. 

Una  caracteristica  importante  del  MCA  es  la  persistencia  de  los  choques  aleatorios  (es  decir, 
los  errores  aleatorios),  lo  cual  resulta  evidente  de  (21.3.5):  Y,  es  la  suma  de  Yo  inicial  mas  la  suma 
de  los  choques  aleatorios.  Como  resultado,  no  se  desvanece  el  impacto  de  un  choque  particular. 
Por  ejemplo,  si  u2  —  2,  en  vez  de  u2  =  0,  todas  las  Y,  de  Y2  en  adelante  seran  2  unidades  mayores, 
por  lo  que  nunca  cesa  el  efecto  de  este  choque.  Por  esta  razon  decimos  que  la  caminata  aleato¬ 
ria  tiene  memoria  infinita.  Como  observa  Kerry  Patterson,  la  caminata  aleatoria  recuerda  los 
choques  por  siempre;10  es  decir,  tiene  memoria  infinita.  La  suma  Ylut  se  conoce  tambien  como 
tendencia  estocastica,  sobre  la  cual  hablaremos  en  detalle  mas  adelante. 

Resulta  interesante  que  si  expresamos  (21.3.4)  como 


(Y,  -  7,-0  =  AY,  =  u,  (21.3.8) 

donde  A  es  el  operador  de  primeras  diferencias,  mismo  que  analizamos  en  el  capitulo  12,  resulta 
facil  probar  que  mientras  que  Y,  es  no  estacionaria,  si  lo  es  la  serie  de  sus  primeras  diferencias. 
En  otras  palabras,  las  primeras  diferencias  de  series  de  tiempo  de  caminata  aleatoria  son  estacio- 
narias.  No  obstante,  hay  mas  que  decir  al  respecto. 


10 


Kerry  Patterson,  op.  cit.,  capitulo  6. 
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Caminata  aleatoria  con  deriva 
Modifiquemos  (21.3.4)  de  la  siguiente  forma: 

Y,  =  8  +  Y,_1+ul  (21.3.9) 

donde  8  se  conoce  como  el  parametro  de  deriva.  El  termino  deriva  proviene  del  hecho  de  que, 
si  escribimos  la  ecuacion  anterior  como 

Yt  —  Yt_j  —  AY,  —  8  +  u,  (21.3.10) 

se  demuestra  que  Y,  se  deriva  o  desvia  hacia  arriba  o  hacia  abajo,  segun  8  sea  positiva  o  negativa. 
Observe  que  el  modelo  (21.3.9)  tambien  es  un  modelo  AR(1). 

Segun  el  procedimiento  analizado  en  la  caminata  aleatoria  sin  deriva,  podemos  demostrar  que, 
para  el  modelo  de  caminata  aleatoria  con  deriva  (21.3.9), 

E{Yt)=YQ  +  t-8  (21.3.11) 

var(7,)  =  to2 

Como  puede  observar,  para  el  MCA  con  deriva,  la  media,  al  igual  que  la  varianza,  se  incre- 
menta  con  el  tiempo,  lo  que  viola  de  nuevo  las  condiciones  de  la  estacionariedad  (debil).  En 
resumen,  el  MCA,  con  o  sin  deriva,  es  un  proceso  estocastico  no  estacionario. 

A  fin  de  dar  una  ligera  idea  de  la  caminata  aleatoria  con  y  sin  deriva,  llevaremos  a  cabo  dos 
simulaciones  a  continuacion: 


Yt  =  Y0  +  u,  (21.3.13) 

donde  u,  son  terminos  de  error  de  ruido  bianco  de  forma  que  cada  it,  ~  N(0,  1);  es  decir,  cada  u, 
sigue  la  distribucion  normal  estandar.  Mediante  un  generador  de  numeros  aleatorios  se  obtuvie- 
ron  500  valores  de  u  y  se  genero  Y,  como  se  muestra  en  (21.3.13).  Supusimos  que  =  0.  Por 
tanto,  (21.3.13)  es  un  MCA  sin  deriva. 

Ahora  considere 


Yt=8+Y0  +  ut  (21.3.14) 

que  es  un  MCA  sin  deriva.  Supusimos  que  los  valores  u,  y  Y{]  son  como  en  (21.3.13)  y  que 

8  =  2. 

Las  graficas  de  los  modelos  (21.3.13)  y  (21.3.14)  aparecen  en  las  figuras  21.3  y  21.4,  res- 
pectivamente.  El  lector  puede  comparar  tales  diagramas  a  la  luz  del  analisis  del  MCA  con  y  sin 
deriva. 


FIGURA  21 .3 

Caminata  aleatoria  sin 
deriva. 
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FIGURA  21 .4 

Caminata  aleatoria  con 
deriva. 


El  modelo  de  caminata  aleatoria  es  un  ejemplo  de  lo  que  se  conoce  en  la  bibliografia  como 
proceso  de  raiz  unitaria.  Como  este  termino  es  ya  muy  comun  en  las  referencias  de  series  de 
tiempo,  a  continuation  explicaremos  lo  que  es  un  proceso  de  raiz  unitaria. 


21.4  Proceso  estocastico  de  raiz  unitaria 


Escribimos  el  MCA  (21.3.4)  como: 


Yt=pYt-i  +  ut  -1<P<1  (21.4.1) 

Este  modelo  se  parece  al  modelo  autorregresivo  de  primer  orden  de  Markov  que  analizamos  en 
el  capitulo  de  autocorrelation.  Si  p  —  1,  (21.4.1)  se  convierte  en  un  MCA  (sin  deriva).  Si  p  es  en 
efecto  1 ,  tenemos  lo  que  se  conoce  como  problema  de  raiz  unitaria;  es  decir,  enfrentamos  una 
situation  de  no  estacionariedad.  Ya  sabemos  que  en  este  caso  la  varianza  de  Y,  es  no  estacionaria. 
El  nombre  de  raiz  unitaria  se  debe  a  que  p  —  l.* 11  For  tanto,  los  terminos  no  estacionariedad,  ca¬ 
minata  aleatoria,  raiz  unitaria  y  tendencia  estocastica  se  consideran  sinonimos. 

Sin  embargo,  si  \p\  <  1,  es  decir,  si  el  valor  absoluto  de  p  es  menor  que  1,  podemos  demostrar 
que  la  serie  de  tiempo  Y,  es  estacionaria  de  acuerdo  con  la  definicion  dada.12 

Asi,  en  la  practica,  es  importante  averiguar  si  una  serie  de  tiempo  tiene  una  raiz  unitaria.13 
En  la  seccion  2 1 .9  analizaremos  varias  pruebas  de  raiz  unitaria,  es  decir,  diversas  pruebas  para 
la  estacionariedad.  En  dicha  seccion  tambien  determinaremos  si  las  series  de  tiempo  graficadas 
en  las  figuras  21.1  y  21.2  son  estacionarias.  Quizas  el  lector  sospeche  que  no  lo  son.  A  su  debido 
tiempo  veremos  esto. 


11  Una  observation  tecnica:  si  p  =  1 ,  (21 .4.1)  se  expresa  como  Yt  —  Yt- 1  =  ut.  Ahora,  con  el  operador  de 
rezago  L,  de  modo  que  LYt  =  Yt- 1,  L2Yt  =  Yt- 2,  etc.,  (21 .4.1)  se  escribe  como  (1  —  L)Yt  =  ut.  El  termino 
"raiz  unitaria"  se  refiere  a  la  raiz  del  polinomio  en  el  operador  de  rezago.  Si  se  tiene  (1  —  L)  =  0,  L  =  1,  de 
ahf  el  nombre  de  raiz  unitaria. 

12  Si  en  (21 .4.1 )  se  supone  que  el  valor  inicial  de  Y(=  Vo)  es  cero,  |p|  <  1  y  ut  es  de  ruido  bianco,  y  tiene  una 
distribucion  normal  con  una  media  cero  y  una  varianza  unitaria,  por  tanto  se  deduce  que  £(Vt)  =  0  y  ( Yt )  = 

1  /(I  —  p2).  Como  ambas  son  constantes,  por  definicion  de  estacionariedad  debil,  Y,  es  estacionaria.  Por  otra 
parte,  como  ya  vimos,  si  p  =  1,  Yt  es  una  caminata  aleatoria  o  no  estacionaria. 

13  Una  serie  de  tiempo  puede  contener  mas  de  una  raiz  unitaria.  Estudiaremos  tal  situacion  mas  adelante  en 
este  capitulo. 
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21.5  Procesos  estocasticos  estacionarios  en  tendencia  (ET) 
y  estacionarios  en  diferencias  (ED) 


La  distincion  entre  procesos  estocasticos  (o  series  de  tiempo)  estacionarios  y  no  estacionarios 
tiene  una  importancia  fundamental  para  saber  si  la  tendencia  (la  lenta  evolucion  de  largo  plazo  de 
la  serie  de  tiempo  en  consideracion)  observada  en  las  series  de  tiempo  presentadas  en  las  figuras 
21.3  y  21.4  o  en  las  series  de  tiempo  economicas  reales  de  las  figuras  21.1  y  21.2  es  determinista 
o  estocastica.  En  terminos  generales,  si  la  tendencia  de  una  serie  de  tiempo  es  del  todo  predecible 
y  no  variable,  se  le  llama  tendencia  determinista;  si  no  es  predecible,  se  le  llama  tendencia  es¬ 
tocastica.  Para  formalizar  la  definicion,  considere  el  siguiente  modelo  de  la  serie  de  tiempo  Y,\ 

Yt  =  pl+p2t  +  l33Yt_l+ut  (21.5.1) 

donde  u,  es  un  termino  de  error  de  ruido  bianco  y  donde  t  es  el  tiempo  medido  cronologicamente. 
Ahora  tenemos  las  siguientes  probabilidades: 

Caminata  aleatoria  pura:  Si  en  (21.5.1)  P\  =  0,  p2  =  0,  p3  —  1,  obtenemos 

Yt  =  Ef_,  +u,  (21.5.2) 

que  no  es  otra  cosa  sino  el  MCA  sin  deriva  y  por  tanto  es  no  estacionario.  Pero  observe  que  si 
expresamos  (21.5.2)  como 


Af)  =  (Yt  —  Yt_{)  —  ut  (21.3.8) 

se  convierte  en  estacionaria,  como  ya  mencionamos.  Por  tanto,  un  MCA  sin  deriva  es  un  pro- 
ceso  estacionario  en  diferencias  (PED). 

Caminata  aleatoria  con  deriva:  Si  en  (21.5.1)  fi\  /  0,  p2  —  0,  p3  =  1,  obtenemos 

Y,  =  fa  +  y,_!  +  ut  (21.5.3) 

que  es  una  caminata  aleatoria  con  deriva  y  en  consecuencia  es  no  estacionaria.  Si  la  expresa¬ 
mos  como 


(Yt-Yt_1)=  AYt=  P!+ut  (21.5.3  a) 

esto  significa  que  Y,  mostrara  una  tendencia  positiva  (Pi  >  0)  o  negativa  (P\  <  0)  (figura  2 1 .4). 
Tal  tendencia  se  llama  tendencia  estocastica.  La  ecuacion  (21.5.3a)  es  un  PED  porque  la  no 
estacionariedad  en  Y,  se  elimina  al  tomar  las  primeras  diferencias  de  las  series  de  tiempo. 
Tendencia  determinista:  Si  en  (21.5.1),  P\  /  0,  p2  /  0,  p3  =  0,  obtenemos 

Y,  =  Pi  +  p2t  +  u,  (21.5.4) 

lo  cual  se  llama  proceso  estacionario  en  tendencia  (PET).  Aunque  la  media  de  Y,  es  P\  + 
p2t  — no  constante — ,  su  varianza  (=  a2)  si  lo  es.  Una  vez  que  conocemos  los  valores  de  P\ 
y  p2,  podemos  pronosticar  la  media  sin  ningun  problema.  Por  tanto,  si  restamos  la  media  de 
Y,  de  Yt,  la  serie  resultante  sera  estacionaria;  de  ahi  el  nombre  de  estacionario  en  tendencia. 
Este  procedimiento  de  eliminar  la  tendencia  (determinista)  se  llama  supresion  de  tendencia. 

Caminata  aleatoria  con  deriva  y  tendencia  determinista:  Si  en  (21.5.1)  P\  /  0,  p2^  0, 
P3  =  1 ,  obtenemos 


Yt  —  Pi  +  P2t  +  T/_  i  +  u, 


(21.5.5) 
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FIGURA  21 .5 

Tendencia  determinista 
frente  a  tendencia 
estocastica. 

Fuente:  Charemza  etal.,  op.  cit., 
p.  91. 


Tiempo 


en  cuyo  caso  tenemos  una  caminata  aleatoria  con  deriva  y  tendencia  determinista,  lo  cual  se 
aprecia  si  expresamos  esta  ecuacion  como 

AL)  =  Pi  +  f$2 1  +  Ut  (21 .5.5  a) 

que  significa  que  Y,  es  no  estacionaria. 

Tendencia  determinista  con  componente  estacionario  AR(1):  Si  en  (21.5.1)  /  0, 

^  0,  <  1 ,  tenemos 

Yt  —  Pi  +  P2t  +  fcYt_  i  +  u,  (21.5.6) 

que  es  estacionaria  alrededor  de  la  tendencia  determinista. 

Para  apreciar  la  diferencia  entre  una  tendencia  determinista  y  una  estocastica,  considere  la 
figura  2 1.5. 14  La  serie  llamada  estocastica  en  esta  figura  esta  generada  por  el  MCA  con  deriva: 
Y,  —  0.5  +  Y,  _  i  +  Ut,  donde  se  generaron  500  valores  de  u,  a  partir  de  la  distribucion  estandar 
y  donde  el  valor  inicial  de  Y  se  establecio  como  1 .  La  serie  llamada  determinista  se  genera  de  la 
siguiente  forma:  Y,  —  0.5/  +  ut,  donde  ut  se  genero  como  antes  y  /  es  el  tiempo  medido  cronolo- 
gicamente. 

Como  se  ve  a  partir  de  la  figura  21.5,  en  el  caso  de  la  tendencia  determinista,  las  desviaciones 
de  la  linea  de  tendencia  (que  representa  la  media  no  estacionaria)  son  puramente  aleatorias  y  se 
eliminan  rapido;  no  contribuyen  al  desarrollo  de  largo  plazo  de  las  series  de  tiempo,  el  cual  esta 
determinado  por  el  componente  de  la  tendencia  0.5/.  En  el  caso  de  la  tendencia  estocastica,  por 
otra  parte,  el  componente  aleatorio  u,  afecta  el  curso  de  largo  plazo  de  la  serie  Y,. 


21.6  Procesos  estocasticos  integrados 


El  modelo  de  caminata  aleatoria  no  es  mas  que  un  caso  especifico  de  una  clase  mas  general  de 
procesos  estocasticos  conocidos  como  procesos  integrados.  Recuerde  que  el  MCA  sin  deriva  es 
no  estacionario,  pero  su  serie  de  primeras  diferencias,  como  se  muestra  en  (21.3.8),  es  estaciona¬ 
ria.  Por  tanto,  el  MCA  sin  deriva  se  llama  proceso  integrado  de  orden  1  y  se  denota  como  7(1). 
De  manera  similar,  si  una  serie  de  tiempo  tiene  que  diferenciarse  dos  veces  (es  decir,  se  toman 
primeras  diferencias  de  la  serie  de  primeras  diferencias)  para  hacerla  estacionaria,  esa  serie  de 
tiempo  se  denomina  integrada  de  orden  2. 15  En  general,  si  una  serie  de  tiempo  (no  estacionaria) 


14  El  siguiente  analisis  se  basa  en  Wojciech  W.  Charemza  et  at.,  op.  cit.,  pp.  89-91 . 

15  Por  ejempio,  si  Yt  es  1(2),  entonces  A  A  Yt=  A  (Yt—  L-i)  =  A  Yt—  AVLi  =  Yt  —  2VLi  +  Vt- 2  se  convertira 
en  estacionaria.  Pero  observe  que  AA Yt  =  A 2Yt^  Y,  —  V't_2. 
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debe  diferenciarse  d  veces  para  hacerla  estacionaria,  decimos  que  la  serie  es  integrada  de  orden 
d.  Una  serie  de  tiempo  Y,  integrada  de  orden  d  se  denota  como  Y,  ~  1(d).  Si  una  serie  de  tiempo 
es  estacionaria  desde  el  principio  (es  decir,  si  no  requiere  ninguna  diferenciacion),  decimos  que  es 
integrada  de  orden  cero  y  se  denota  mediante  Y,  ~  7(0).  Por  tanto,  con  los  terminos  “serie  de 
tiempo  estacionaria”  y  “serie  de  tiempo  integrada  de  orden  cero”  daremos  a  entender  la  misma 
cosa. 

La  mayoria  de  las  series  de  tiempo  economicas  son  7(1);  es  decir,  por  lo  general  se  convierten 
en  estacionarias  solo  despues  de  tomar  sus  primeras  diferencias.  (',Las  series  de  tiempo  mostra- 
das  en  las  figuras  21.1  y  21.2  son  7(1)  o  de  orden  mayor?  Las  examinaremos  en  las  secciones 
21.8  y  21.9. 

Propiedades  de  las  series  integradas 

Podemos  observar  las  siguientes  propiedades  de  las  series  de  tiempo  integradas:  sea  X,,  Y,  y  Z, 
tres  series  de  tiempo. 

1.  Si  X,  ~  7(0 )  y  Y,  ~  7(  1 ),  Z,  =  (X,  +  Yt)  =  7(  1 );  es  decir,  una  combinacion  lineal  o  suma  de  series 
de  tiempo  estacionaria  y  no  estacionaria  es  no  estacionaria. 

2.  Si  X, t  ~  1(d),  Z,=  (a  +  bXt)  =  1(d),  donde  ay  b  son  constantes.  Es  decir,  una  combinacion 
lineal  de  una  serie  1(d)  es  tambien  1(d).  Por  tanto,  si  X,  ~  7(0),  Z,  —  (a  +  bXt)  ~  7(0). 

3.  SiX,  ~  I(d\)  y  Y,~  I(d2),  Z,  =  (aX,  +  bYt)  ~  I(d2),  donde  dx  <  d2. 

4.  SiX,  ~  1(d)  y  7,  ~  1(d),  Z,  =  (aX,  +  bYt)  ~  I(d*)\  d*  es  por  lo  general  igual  a  d,  pero  en  algu¬ 
nos  casos  d*  <  d  (vease  el  tema  de  cointegracion  en  la  seccion  21.11). 

Como  se  ve  por  los  enunciados  anteriores,  debemos  poner  especial  atencion  al  combinar  dos 
o  mas  series  de  tiempo  que  tengan  diferente  orden  de  integration. 

Para  ver  la  importancia  de  esto,  considere  el  modelo  de  regresion  de  dos  variables  analizado 
en  el  capitulo  3,  a  saber,  Y,=  f}x  +  f52X,  +  ut.  Segun  los  supuestos  clasicos  de  MCO,  sabemos 
que 

(21.6.1) 

L-,xt 

donde  las  letras  minusculas,  como  siempre,  indican  la  desviacion  de  los  valores  medios.  Suponga 
que  Yt  es  7(0)  pero  que  X,  es  7(1);  es  decir,  la  primera  es  estacionaria  y  la  segunda  no.  Como  X, 
es  no  estacionaria,  su  varianza  se  incrementara  indefinidamente  por  tanto,  domina  el  termino 
del  numerador  en  (21.6.1),  con  el  resultado  de  que  convergira  a  cero  de  manera  asintotica  (es 
decir,  en  muestras  grandes)  y  no  tendra  siquiera  una  distribucion  asintotica.16 


21.7  El  fenomeno  de  regresion  espuria 


Para  ver  por  que  las  series  de  tiempo  estacionarias  son  tan  importantes,  considere  los  dos  mode- 
los  de  caminata  aleatoria  siguientes: 

Yt  =  L,-i  +u,  (21.7.1) 

X,  =X,_!  +  v,  (21.7.2) 

donde  se  generaron  500  observaciones  de  ut  a  partir  de  u,  ~  N( 0,  1)  y  500  observaciones  de  v, 
a  partir  de  v,  ~  ;V(0,  1),  ademas  de  que  se  supuso  que  los  valores  iniciales  de  Y  y  X  eran  cero. 
Tambien  se  supuso  que  ut  y  v,  no  estan  serial  ni  mutuamente  correlacionadas.  Como  ya  sabemos, 
ambas  series  de  tiempo  son  no  estacionarias;  es  decir,  son  7(1)  o  exhiben  tendencias  estocas- 
ticas. 


16 


Esta  observacion  se  debe  a  Maddala  et  al.,  op.  cit.,  p.  26. 
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Suponga  que  hacemos  la  regresion  de  Y,  sobre  X,.  Como  Y,  y  X,  son  procesos  no  correlacio- 
nados  7(1),  R2  de  la  regresion  de  Y  sobre  X  debe  tender  a  cero;  es  decir,  no  debe  haber  ninguna 
relacion  entre  las  dos  variables.  Pero  vea  los  resultados  de  la  regresion: 


Variable 

Coeficiente 

Error  estandar 

Estadistico  t 

C 

-13.2556 

0 . 6203 

-21.36856 

X 

0 . 3376 

0 . 0443 

7 .61223 

R2  =  0.1044 

d  =  0.0121 

Como  puede  observar,  el  coeficiente  de  X  es  muy  significativo  estadisticamente,  y  aunque  el 
valor  de  R2  es  bajo,  es  estadisticamente  distinto  de  cero.  A  partir  de  estos  resultados,  uno  estaria 
tentado  a  concluir  que  existe  una  relacion  estadistica  significativa  entre  Y  y  X,  aunque  a  priori  se 
pensara  que  no  habria  ninguna.  Lo  anterior  resume  el  fenomeno  de  regresion  espuria  o  regre¬ 
sion  sin  sentido  descubierto  por  Yule,17  quien  mostro  ademas  que  la  correlacion  (espuria)  puede 
persistir  en  las  series  de  tiempo  no  estacionarias  aunque  la  muestra  sea  muy  grande.  Que  hay  algo 
malo  en  la  regresion  anterior  lo  indica  el  valor  extremadamente  bajo  de  la  d  de  Durbin- Watson,  el 
cual  indica  una  autocorrelation  muy  fuerte  de  primer  orden.  De  acuerdo  con  Granger  y  Newbold, 
R2  >  d  es  una  buena  regia  prdctica  para  sospechar  que  la  regresion  estimada  es  espuria,  como 
en  el  ejemplo  anterior.  Podemos  anadir  que  la  R2  y  el  estadistico  t  de  dicha  regresion  espuria  son 
enganosos  y  que  los  estadisticos  t  no  estan  distribuidos  como  la  distribution  t  (de  Student)  y,  por 
tanto,  no  se  pueden  probar  con  ellos  hipotesis  sobre  los  parametros. 

Que  los  resultados  de  la  regresion  presentados  antes  carezcan  de  sentido  se  advierte  con  faci- 
lidad  al  hacer  la  regresion  de  las  primeras  diferencias  de  Y,  (=  A  Yt)  sobre  las  primeras  diferen- 
cias  de  X,  (=  AX,);  recuerde  que  aunque  Y,  y  X,  son  no  estacionarias,  sus  primeras  diferencias 
si  lo  son.  En  esta  regresion  veremos  que  R2  es  practicamente  cero,  como  debe  ser,  y  que  la  d  de 
Durbin- Watson  es  de  casi  2.  En  el  ejercicio  21.24  se  le  pedira  realizar  esta  regresion  y  verificar 
el  enunciado  anterior. 

Aunque  resulta  drastico,  este  ejemplo  es  un  recordatorio  de  que  debemos  tener  mucho  cui- 
dado  al  llevar  a  cabo  un  analisis  de  regresion  basado  en  series  de  tiempo  que  exhiban  tendencias 
estocasticas.  Asi,  hay  que  tomar  muchas  precauciones  al  interpretar  de  mas  los  resultados  de  la 
regresion  basados  en  variables  7(1).  Por  ejemplo,  vea  el  ejercicio  21.26.  En  alguna  medida,  lo 
anterior  resulta  verdadero  para  las  series  de  tiempo  sujetas  a  tendencias  deterministas,  de  lo  cual 
se  da  un  ejemplo  en  el  ejercicio  21.25. 


21.8  Pruebas  de  estacionariedad 


A  estas  alturas  es  probable  que  el  lector  tenga  una  buena  idea  sobre  la  naturaleza  de  los  procesos 
estocasticos  estacionarios  y  su  importancia.  En  la  practica  se  enfrentan  dos  preguntas  importan- 
tes:  1)  ^Como  sabemos  si  una  serie  de  tiempo  determinada  es  estacionaria?  2)  Si  tenemos  que  una 
serie  de  tiempo  determinada  es  no  estacionaria,  ^hay  alguna  forma  de  que  se  convierta  en  estacio¬ 
naria?  Abordaremos  la  primera  pregunta  en  este  apartado  y  la  segunda  en  la  seccion  21.10. 

Antes  de  proceder,  tenga  en  cuenta  que  sobre  todo  nos  interesa  la  estacionariedad  debil  o 
covarianza. 

Aunque  hay  varias  pruebas  para  la  estacionariedad,  solo  analizamos  las  que  se  estudian  de 
manera  prominente  en  la  bibliografia.  En  esta  seccion  examinaremos  dos  pruebas:  1)  el  analisis 


17G.U.  Yule,  "Why  Do  We  Sometimes  Get  Nonsense  Correlations  Between  Time  Series?  A  Study  in  Sampling 
and  the  Nature  of  Time  Series",  en  Journal  of  the  Royal  Statistical  Society,  vol.  89,  1 926,  pp.  1  -64.  Para  am- 
plias  simulaciones  Monte  Carlo  sobre  regresiones  espurias,  vease  C.W.J.  Granger  y  P.  Newbold,  "Spurious 
Regressions  in  Econometrics",  en  Journal  of  Econometrics,  vol.  2,  1974,  pp.  111-120. 
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grafico  y  2)  la  prueba  del  correlograma.  Debido  a  la  importancia  que  le  otorgamos  en  el  pasado 
reciente,  en  el  siguiente  apartado  estudiaremos  la  prueba  de  raiz  unitaria.  Ilustramos  las  pruebas 
mencionadas  con  ejemplos  adecuados. 

1.  Analisis  grafico 

Como  ya  mencionamos,  antes  de  efectuar  una  prueba  formal,  siempre  es  aconsejable  graficar 
la  serie  de  tiempo  en  estudio,  como  se  hizo  en  las  figuras  21.1  y  2 1 .2  con  los  datos  de  series  de 
tiempo  sobre  indicadores  economicos  de  Estados  Unidos  que  se  presentan  en  el  sitio  Web  del 
libro  de  texto.  Estas  graficas  proporcionan  una  pista  inicial  respecto  de  la  posible  naturaleza  de 
las  series  de  tiempo.  Por  ejemplo,  considere  la  serie  de  tiempo  P1B  de  la  figura  21.1.  Observara 
que,  a  lo  largo  del  periodo  de  estudio,  el  logaritmo  del  PIB  se  incremento;  es  decir,  muestra  una 
tendencia  ascendente,  lo  cual  deja  entrever  que  quiza  este  variando  la  media  del  logaritmo  del 
PIB.  Esto  tal  vez  indique  que  la  serie  logaritmica  del  PIB  es  no  estacionaria,  lo  cual  es  mas  o 
menos  verdadero  para  las  otras  series  de  tiempo  economicas  de  Estados  Unidos  de  la  figura  2 1 .2. 
Esa  intuition  es  el  comienzo  de  una  prueba  mas  formal  de  estacionariedad. 


2.  Funcion  de  autocorrelacion  (FAC)  y  correlograma 

Una  prueba  sencilla  de  estacionariedad  se  basa  en  la  denominada  funcion  de  autocorrelacion 
(FAC).  La  FAC  en  el  rezago  k,  denotada  por  pt,  se  define  como 


Vo 


covarianza  en  el  rezago  k 


varianza 


(21.8.1) 


donde  la  covarianza  en  el  rezago  k  y  la  varianza  son  como  se  definieron  anteriormente.  Observe 
que  si  k  —  0,  po  =  1  (<)por  que?). 

Como  la  covarianza  y  la  varianza  se  miden  en  las  mismas  unidades,  Pk  es  un  mimero  sin  unidad 
de  medida,  o  puro.  Se  encuentra  entre  —  1  y  +1,  igual  que  cualquier  coeficiente  de  correlation.  Si 
graficamos  pk  respecto  de  k,  la  grafica  obtenida  se  conoce  como  correlograma  poblacional. 

Como,  en  la  practica,  solo  tenemos  una  realization  de  un  proceso  estocastico  (es  decir,  la 
muestra),  solo  podemos  calcular  la  funcion  de  autocorrelacion  muestral,  p^  Para  tal  efecto, 
debemos  calcular  primero  la  covarianza  muestral  en  el  rezago  k,  yk,  y  la  varianza  muestral, 
yo  definidas  como18 


Yk 


Z(Y,-Y){Yt+k-Y) 

n 


(21.8.2) 


UY-Y)2 


(21.8.3) 


donde  n  es  el  tamano  de  la  muestra  y  Y  es  la  media  muestral. 

Por  consiguiente,  la  funcion  de  autocorrelacion  muestral  en  el  rezago  k  es 


(21.8.4) 


que  es  simplemente  la  razon  entre  la  covarianza  muestral  (en  el  rezago  k)  y  la  varianza  muestral. 
La  grafica  de  f%  frente  a  k  sc  conoce  como  correlograma  muestral. 

?,C6mo  saber  con  un  correlograma  si  una  serie  de  tiempo  particular  es  estacionaria?  Para  este 
proposito,  primero  presentaremos  correlogramas  muestrales  de  un  proceso  puramente  aleatorio 


18  En  sentido  estricto,  debemos  dividir  la  covarianza  muestral  en  el  rezago  k  por  (n  -  k)  y  la  varianza  mues¬ 
tral  entre  (n  —  1)  en  vez  de  hacerlo  entre  n  (ipor  que?),  en  donde  n  es  el  tamano  de  la  muestra. 
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FIG URA  21.6  Muestra:  2  500 

Correlograma  del  termino  Observaciones  incluidas:  499 


de  error  de  ruido  bianco 
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de  ruido  bianco  y  un  proceso  de  caminata  aleatoria.  Regresemos  al  MCA  sin  deriva  (21.3.13). 
Ahi  generamos  una  muestra  de  500  terminos  de  error,  las  u,  a  partir  de  la  distribution  normal 
estandarizada.  El  correlograma  para  estos  500  terminos  de  error  puramente  aleatorios  es  como  se 
muestra  en  la  figura  21.6;  se  muestran  en  este  correlograma  hasta  30  rezagos.  En  breve  comenta- 
remos  como  elegir  la  longitud  del  rezago. 

Por  el  momento,  solo  observe  la  columna  AC,  que  es  la  funcion  de  autocorrelacion  muestral, 
y  el  primer  diagrama  de  la  izquierda,  llamado  autocorrelacion.  La  linea  vertical  continua  de  este 
diagrama  representa  el  eje  cero;  las  observaciones  por  arriba  de  esta  linea  son  valores  positivos,  y 
los  que  estan  por  debajo,  negativos.  Como  resulta  evidente  a  partir  de  este  diagrama,  para  un  pro¬ 
ceso  puramente  de  ruido  bianco,  las  autocorrelaciones  en  distintos  rezagos  se  ubican  alrededor 
del  cero.  Esta  es  una  imagen  de  un  correlograma  de  una  serie  de  tiempo  estacionaria.  Por  tanto, 
si  el  correlograma  de  una  serie  de  tiempo  real  (economica)  se  parece  al  correlograma  de  una  serie 
de  tiempo  de  ruido  bianco,  podemos  decir  que  dicha  serie  de  tiempo  es  quiza  estacionaria. 
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FIGURA  21.7 

Correlograma  de  una  serie 
de  tiempo  de  caminata 
aleatoria.  Veanse  las  defi- 
niciones  en  la  figura  21.6. 


Muestra:  2  500 
Observaciones  incluidas:  499 
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Ahora  observe  el  correlograma  de  una  serie  de  caminata  aleatoria  como  se  genera por  (2 1 .3. 13). 
La  grafica  se  muestra  en  la  figura  21.7.  La  caracteristica  mas  sobresaliente  de  este  correlograma 
es  que  los  coeficientes  de  autocorrelacion,  para  diversos  rezagos,  son  muy  altos,  incluso  hasta 
para  un  rezago  de  33  trimestres.  De  hecho,  si  consideramos  rezagos  de  hasta  60  trimestres,  los 
coeficientes  de  autocorrelacion  son  muy  altos;  en  el  rezago  60,  el  coeficiente  es  de  casi  0.7.  La 
figura  21.7  es  un  correlograma  habitual  de  una  serie  de  tiempo  no  estacionaria.  El  coeficiente 
de  autocorrelacion  comienza  en  un  nivel  muy  alto  y  disminuye  de  modo  muy  lento  hacia  cero, 
conforme  se  prolonga  el  rezago. 

Consideremos  un  ejemplo  concreto.  Examinemos  el  correlograma  de  la  serie  de  tiempo  LPIB 
graficada  con  base  en  los  datos  de  series  de  tiempo  economicas  de  Estados  Unidos  del  sitio  Web 
del  libro  (seccion  21.1).  En  la  figura  21.8  se  muestra  el  correlograma  de  hasta  36  rezagos.  El 
correlograma  de  hasta  36  rezagos  del  LPIB  tambien  muestra  un  patron  semejante  al  del  corre- 
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FIGURA  21.8 

Correlograma  del  LPIB  de 
Estados  Unidos,  1-1947  a 
IV-2007.  Veanse  las  defi- 
niciones  en  la  figura  21.6. 


Muestra:  1-1947  IV-2007 
Observaciones  incluidas:  244 
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lograma  del  modelo  de  caminata  aleatoria  de  la  figura  21.7.  El  coeficiente  de  autocorrelacion 
comienza  con  un  valor  muy  alto  en  el  rezago  1  (0.977)  y  disminuye  muy  lentamente.  Por  tanto, 
parece  que  la  serie  de  tiempo  PIB  es  no  estacionaria.  Si  graficamos  los  correlogramas  de  otras 
series  de  tiempo  economicas  de  Estados  Unidos  de  la  figura  21.1  y  21.2  observaremos  patrones 
similares,  lo  cual  lleva  a  la  conclusion  de  que  todas  estas  series  de  tiempo  son  no  estacionarias; 
tal  vez  sean  no  estacionarias  respecto  de  la  media  o  la  varianza,  o  ambas. 

Aqui  podemos  abordar  dos  cuestiones  practicas.  En  primer  lugar,  ^como  elegir  la  longitud  del 
rezago  para  calcular  la  FAC?,  y  en  segundo,  pcorno  determinar  si  un  coeficiente  de  autocorrela¬ 
cion  es  estadisticamente  significativo  en  un  cierto  rezago?  A  continuation  damos  las  respuestas. 
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Election  de  la  longitud  del  rezago 

Se  trata  basicamente  de  un  asunto  emplrico.  Una  regia  practica  es  calcular  la  FAC  hasta  un  tercio 
o  una  cuarta  parte  de  la  longitud  de  la  serie  de  tiempo.  En  vista  de  que  para  los  datos  economicos 
de  este  ejemplo  tenemos  244  observaciones  trimestrales,  segun  esta  regia,  los  rezagos  de  61  a  81 
trimestres  serviran.  Para  ahorrar  espacio,  solo  mostramos  36  rezagos  en  la  grafica  de  la  FAC  en 
la  figura  21.8.  El  mejor  consejo  practico  es  comenzar  con  rezagos  lo  bastante  grandes  y  luego 
reducirlos  mediante  un  criterio  estadlstico,  como  el  criterio  de  information  Akaike  o  de  Schwarz, 
que  analizamos  en  el  capltulo  13.  Por  otra  parte,  tambien  podemos  utilizar  cualquiera  de  las 
siguientes  pruebas. 

Significance  estadfstica  de  los  coeficientes  de  autocorrelacion 

Considere,  por  ejemplo,  el  correlograma  de  la  serie  de  tiempo  LPIB  de  la  figura  21.8.  /.Como  de- 
cidir  si  el  coeficiente  de  correlacion,  0.780,  en  el  rezago  10  (trimestres)  es  estadisticamente  signi¬ 
ficative?  La  significance  estadistica  de  cualquier  pk  se  juzga  mediante  su  error  estandar.  Bartlett 
demostro  que  si  una  serie  de  tiempo  es  puramente  aleatoria,  es  decir,  si  es  una  muestra  de  ruido 
bianco  (figura  21.6),  los  coeficientes  de  autocorrelacion  muestrales  p'k  son  aproximadamente 19 

At~A(0,l/«)  (21.8.5) 

es  decir,  en  muestras  grandes,  los  coeficientes  de  autocorrelacion  muestrales  estan  normalmente 
distribuidos  y  tienen  media  cero  y  varianza  igual  a  1  sobre  el  tamano  de  la  muestra.  Como  hay 
244  observaciones,  la  varianza  es  1/244  ~  0.0041,  y  el  error  estandar,  f  0.004 1  ~  0.0640.  Por 
tanto,  segun  las  propiedades  de  la  distribution  normal  estandar,  el  intervalo  de  confianza  de  95% 
para  cualquier  (poblacion)  pk  es: 

pk  ±  1.96(0.0640)  =  pk  ±  0.1254  (21.8.6) 

En  otras  palabras, 

Prob  (pk  -  0. 1254  <  pk  <  pk  +  0. 1254)  =  0.95  (21 .8.7) 

Si  el  intervalo  anterior  incluye  el  valor  cero,  no  rechazamos  la  hipotesis  de  que  la  verdadera  pk 
es  cero,  pero  si  este  intervalo  no  incluye  0,  rechazamos  la  hipotesis  de  que  la  verdadera  pk  es 
cero.  A1  aplicar  esto  al  valor  estimado  de  p\o  =  0.780,  el  lector  puede  verificar  que  el  intervalo 
de  confianza  de  95%  para  la  verdadera  pio  es  (0.780  ±  0.1254)  o  (0.6546,  0.9054). 20  Es  obvio 
que  este  intervalo  no  incluye  el  valor  cero,  lo  cual  indica  que  hay  95%  de  confianza  de  que  la 
verdadera  p\o  sea  significativamente  diferente  de  cero.21  Como  se  ve,  incluso  en  el  rezago  20 
la  P20  es  estadisticamente  significativa  en  un  nivel  de  5%. 

En  lugar  de  probar  la  significancia  estadistica  de  cualquier  coeficiente  de  autocorrelacion 
individual,  para  probar  la  hipotesis  conjunta  de  que  todos  los  pk  hasta  ciertos  rezagos  son  simul- 
taneamente  iguales  a  cero,  podemos  utilizar  el  estadlstico  Q  desarrollado  por  Box  y  Pierce,  que 
se  define  como22 

m 

Q  =  "Y.P2k  (21.8.8) 

k=  1 


19  M.S.  Bartlett,  "On  the  Theoretical  Specification  of  Sampling  Properties  of  Autocorrelated  Time  Series",  en 
)ournal  of  the  Royal  Statistical  Society,  serie  B,  vol.  27,  1 946,  pp.  27-41 . 

20  El  tamano  de  la  muestra  de  244  observaciones  es  razonablemente  grande  para  usar  la  aproximacion  nor¬ 
mal. 

21  Por  otra  parte,  si  divide  el  valor  estimado  de  cualquier  pk  entre  el  error  estandar  OfTfn)  para  una  n  lo 
bastante  grande,  obtendra  el  valor  estandar  Z,  cuya  probabilidad  se  obtiene  facilmente  a  partir  de  la  tabla 
normal  estandar.  Por  tanto,  para  el  valor  estimado  de  pio  =  0.780,  el  valor  Z  es  0.780/0.1 066  =  7.32 
(aproximadamente).  Si  la  verdadera  pi0  fuera  en  efecto  cero,  la  probabilidad  de  obtener  un  valor  Z  igual  o 
mayor  que  7.32  es  muy  pequena,  por  lo  que  rechazamos  la  hipotesis  de  que  la  verdadera  pio  es  cero. 

22  G.E.  P.  Box  y  D.A.  Pierce,  "Distribution  of  Residual  Autocorrelations  in  Autoregressive  Integrated  Moving 
Average  Time  Series  Models",  lournal  of  the  American  Statistical  Association,  vol.  65,  1 970,  pp.  1 509-1 526. 
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donde  n  —  tamano  de  la  muestra  v  m  —  longitud  del  rezago.  El  estadlstico  Q  es  comun  para  pro¬ 
bar  si  una  serie  de  tiempo  es  de  ruido  bianco.  En  muestras  grandes,  este  estadistico  se  distribuye 
aproximadamente  como  la  distribucion  ji  cuadrada  con  m  gl.  En  una  aplicacion,  si  la  Q  calculada 
excede  el  valor  Q  critico  de  la  distribucion  ji  cuadrada  en  el  nivel  de  significance  seleccionado, 
podemos  rechazar  la  hipotesis  nula  de  que  todos  los  pt  (verdaderos)  son  iguales  a  cero;  por  lo 
menos  algunos  de  ellos  deben  ser  diferentes  de  cero. 

Una  variante  del  estadistico  Q  de  Box-Pierce  es  el  estadistico  Ljung-Box  (LB),  que  se  define 

23 

como 


LB  =  n 


X2m 


(21.8.9) 


Aunque  en  muestras  grandes  tanto  el  estadistico  Q  como  el  estadistico  LB  siguen  la  distribucion 
ji  cuadrada  con  m  gl,  se  ha  visto  que  el  estadistico  LB  tiene  mejores  propiedades  en  muestras 
pequenas  (mas  potente,  en  el  sentido  estadistico)  que  el  estadistico  Q.24 

De  regreso  al  ejemplo  del  LP1B  de  la  figura  21.8,  el  valor  del  estadistico  Q  hasta  el  rezago  36 
es  cercano  a  4  096.  La  probabilidad  de  obtener  tal  valor  de  Q  segun  la  hipotesis  nula  de  que  la 
suma  de  los  36  cuadrados  de  los  coeficientes  de  autocorrelation  estimados  sea  cero  es  practica- 
mente  nula,  como  lo  muestran  las  cifras  de  la  ultima  columna.  Por  consiguiente,  la  conclusion  es 
que  la  serie  de  tiempo  LP1B  probablemente  es  no  estacionaria,  con  lo  cual  se  refuerza  la  conjetura 
basada  en  la  figura  21.1:  la  serie  LPIB  tal  vez  era  no  estacionaria.  En  el  ejercicio  21.16  se  pide 
al  lector  confirmar  que  las  otras  cuatro  series  de  tiempo  economicas  de  Estados  Unidos  tambien 
son  no  estacionarias. 


21.9  Prueba  de  raiz  unitaria 


Otra  prueba  sobre  estacionariedad  (o  no  estacionariedad)  que  se  populariza  cada  vez  mas  se  co- 
noce  como  prueba  de  raiz  unitaria.  Primero  la  explicaremos,  luego  la  ilustraremos  y  despues 
consideraremos  algunas  limitantes  de  esta  prueba. 

El  punto  de  partida  es  el  proceso  (estocastico)  de  raiz  unitaria  que  vimos  en  la  section  2 1 .4. 
Se  inicia  con 


Y,  =  PYt_l+u,  -l<p<l  (21.4.1) 

donde  u,  es  un  termino  de  error  de  ruido  bianco. 

Sabemos  que  si  p  =  1,  es  decir,  en  el  caso  de  la  raiz  unitaria,  (21.4.1)  se  convierte  en  un  mo- 
delo  de  caminata  aleatoria  sin  deriva,  del  cual  sabemos  tambien  que  es  un  proceso  estocastico  no 
estacionario.  Por  consiguiente,  (',por  que  no  simplemente  hacer  la  regresion  de  Y,  sobre  su  valor 
rezagado  (de  un  periodo)  7,_  i  y  se  averigua  si  la  p  estimada  es  estadisticamente  igual  a  1?  De 
ser  asi,  Y,  es  no  estacionaria.  Esta  es  la  idea  general  de  la  prueba  de  raiz  unitaria  para  la  estacio¬ 
nariedad. 

Sin  embargo,  no  podemos  estimar  la  ecuacion  (21.4.1)  por  MCO  y  probar  la  hipotesis  de  que 
p  =  1  por  medio  de  la  prueba  t  acostumbrada,  porque  esa  prueba  tiene  un  sesgo  muy  marcado  en 
el  caso  de  una  raiz  unitaria.  Por  tanto,  manipulamos  (21.4.1)  de  la  siguiente  forma:  restamos  7,_i 
de  ambos  miembros  de  la  ecuacion  (21.4.1)  para  obtener: 


Yt 


la  cual  tambien  se  expresa  como: 


Yt- 1  —  pYt- 1  —  7,_i  +  ut 
—  (P  —  l)7r_i  +  u, 


A 7/  —  8Y{—\  -f-  Uf 


donde  S  =  (p  —  1)  y  A,  como  siempre,  es  el  operador  de  primeras  diferencias. 


(21.9.1) 

(21.9.2) 


23  C.M.  Ljung  y  G.P.E.  Box,  "On  a  Measure  of  Lack  of  Fit  in  Time  Series  Models",  en  Biometrika,  vol.  66, 
1978,  pp.  66-72. 

24  Los  estadfsticos  Q  y  LB  tal  vez  no  resulten  apropiados  en  todos  ios  casos.  Para  conocer  una  crftica  de  lo 
anterior,  consulte  Maddala  et  al.,  op.  cit.,  p.  19. 
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Por  tanto,  en  la  practica,  en  vez  de  estimar  (21.4.1),  calculamos  (21.9.2)  y  probamos  la  hi¬ 
potesis  (nula)  de  que  8  =  0,  y  la  hipotesis  alternativa  es  que  8  <  0  (nota  25).  Si  8  =  0,  entonces 
p  =  1 ;  es  decir,  tenemos  una  raiz  unitaria,  lo  cual  significa  que  la  serie  de  tiempo  en  considera- 
cion  es  no  estacionaria. 

Antes  de  proceder  con  la  estimacion  de  (21.9.2)  debemos  observar  que  si  8  =  0,  entonces 
(21.9.2)  se  convertira  en 


A  Yt  =  (Yt-Yt-d=ut  (21.9.5) 

Como  ut  es  un  termino  de  error  de  ruido  bianco,  entonces  es  estacionario,  lo  cual  significa  que 
las  primeras  diferencias  de  una  serie  de  tiempo  de  caminata  aleatoria  son  estacionarias,  una  ob- 
servacion  que  ya  hablamos  hecho. 

Ahora  reconsideremos  la  estimacion  de  (21.9.2).  Esto  es  muy  simple:  solo  hay  que  tomar  las 
primeras  diferencias  de  Y,  y  hacer  la  regresion  sobre  7,_ i,  a  fin  de  ver  si  el  coeficiente  estimado 
de  la  pendiente  en  esta  regresion  (=  <5)  es  o  no  cero.  Si  es  cero,  concluimos  que  Y,  es  no  estaciona¬ 
ria;  pero  si  es  negativa,  se  inhere  que  Y,  es  estacionaria.25  La  unica  interrogante  es  saber  con  que 
prueba  averiguar  si  el  coeficiente  estimado  de  7,_i  en  (21.9.2)  es  o  no  cero.  Uno  estaria  tentado  a 
utilizar  la  prueba  t  usual.  Por  desgracia,  segun  la  hipotesis  nula  de  que  8  =  0  (es  decir,  p  =  1),  el 
valor  t  del  coeficiente  estimado  de  Yt_\  no  sigue  la  distribucion  t  ni  siquiera  en  muestras  grandes, 
es  decir,  no  tiene  una  distribucion  normal  asintotica. 

pCual  es  la  alternativa?  Dickey  y  Fuller  probaron  que  segun  la  hipotesis  nula  de  que  5  =  0, 
el  valor  estimado  t  del  coeficiente  7(_i  en  (21.9.2)  sigue  el  estadistico  r  (tau).26  Estos  autores 
calcularon  los  valores  criticos  del  estadistico  tau  con  base  en  simulaciones  Monte  Carlo.  Una 
muestra  de  esos  valores  criticos  se  da  en  el  apendice  D,  tabla  D.7.  La  tabla  es  limitada,  pero 
MacKinnon  preparo  tablas  mas  extensas,  ya  incorporadas  en  diferentes  software  estadisticos.27 
En  la  bibliografia,  el  estadistico  o  prueba  tau  se  conoce  como  prueba  Dickey-Fuller  (DF),  en 
honor  a  sus  descubridores.  Resulta  interesante  que  si  rechazamos  la  hipotesis  de  que  8  =  0  (es 
decir,  la  serie  de  tiempo  es  estacionaria),  podemos  utilizar  la  prueba  t  (de  Student)  usual.  Tenga 
en  cuenta  que  la  prueba  Dickey-Fuller  es  unidireccional  porque  la  hipotesis  alternativa  es  que 
8  <  0  (o  p  <  1). 

El  procedimiento  real  para  aplicar  la  prueba  DF  supone  diversas  decisiones.  A1  analizar  la 
naturaleza  del  proceso  de  raiz  unitaria  en  las  secciones  21.4  y  21.5  observamos  que  un  proceso 
de  caminata  aleatoria  tal  vez  no  tiene  deriva,  o  quiza  si,  o  posiblemente  tiene  tendencia  determi- 
nista  y  estocastica.  A  fin  de  permitir  las  distintas  posibilidades,  la  prueba  DF  se  estima  en  tres 
diferentes  formas,  es  decir,  conforme  a  tres  hipotesis  nulas: 

Y,  es  una  caminata  aleatoria:  AY,  —  8Y,~\  +  u,  (21.9.2) 

Y,  es  una  caminata  aleatoria  con  deriva:  AY,  —  +  57,_i  +  u,  (21 .9.4) 

Y,  es  una  caminata  aleatoria  con  deriva 
alrededor  de  una  tendencia 

determinista:  A7,  =  f$\  +  /f2/  +  8Y,  _i  +  u,  (21 .9.5) 


25  Porque  8  =  (p  —  1 ),  por  lo  que  la  estacionariedad  p  debe  ser  menor  que  uno.  Para  que  esto  suceda,  8 
debe  ser  negativa. 

26  D.A.  Dickey  y  W.A.  Fuller,  "Distribution  of  the  Estimators  for  Autoregressive  Time  Series  with  a  Unit  Root", 
en  lournal  of  the  American  Statistical  Association,  vol.  74,  1979,  pp.  427-431.  Vease  tambien  W.A.  Fuller,  In¬ 
troduction  to  Statistical  Time  Series,  John  Wiley  &  Sons,  Nueva  York,  1 976. 

27J.G.  MacKinnon,  "Critical  Values  of  Cointegration  Test",  en  R.E.  Engle  y  C.W.J.  Granger  (eds.),  Long-Run 
Economic  Relationships:  Readings  in  Cointegration,  cap.  1 3,  Oxford  University  Press,  Nueva  York,  1 991 . 
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donde  t  es  la  variable  de  tiempo  o  de  tendencia.  En  cada  caso,  las  hipotesis  son: 

Hipotesis  nula:  Ho:<5  =  0  (es  decir,  existe  una  raiz  unitaria,  la  serie  de  tiempo  es  no  estaciona- 

ria  o  tiene  tendencia  estocastica). 

Hipotesis  alternative :  Hi:<$  <  0  (es  decir,  la  serie  de  tiempo  es  estacionaria,  posiblemente 

alrededor  de  una  tendencia  determinista).28 

Si  rechazamos  la  hipotesis  nula,  esto  significa  que  1)  Y,  es  estacionaria  con  media  cero  en 
el  caso  de  la  ecuacion  (21.9.2)  o  que  2)  Y,  es  estacionaria  con  una  media  distinta  de  cero  en  el 
caso  de  (21.9.4).  En  el  caso  de  la  ecuacion  (21.9.5),  podemos  probar  que  8  <  0  (es  decir,  no 
hay  tendencia  estocastica)  y  a  ^  0  (es  decir,  la  existencia  de  una  tendencia  determinista)  simul- 
taneamente,  mediante  la  prueba  F  pero  con  los  valores  criticos  tabulados  por  Dickey  y  Fuller. 
Cabe  senalar  que  una  serie  de  tiempo  puede  contener  tanto  una  tendencia  estocastica  como  una 
determinista. 

Es  extremadamente  importante  observar  que  los  valores  criticos  de  la  prueba  tan  para  probar 
la  hipotesis  de  que  8—0  son  diferentes  en  cada  una  de  las  tres  especificaciones  anteriores  de  la 
prueba  DF,  lo  cual  se  ve  claramente  en  el  apendice  D,  tabla  D.7.  Es  mas,  si,  por  ejemplo,  la  es¬ 
pecificacion  (21.9.4)  es  correcta  pero  se  estima  (21.9.2),  cometemos  un  error  de  especificacion, 
cuyas  consecuencias  ya  conocemos  desde  el  capitulo  13.  La  misma  regia  se  aplica  si  estimamos 
(21.9.4)  en  vez  del  verdadero  (21.9.5).  Desde  luego,  no  hay  forma  de  saber  cual  especificacion  es 
la  correcta.  Resulta  inevitable  hacer  pruebas  de  ensayo  y  error,  no  obstante  la  mineria  de  datos. 

El  procedimiento  real  de  estimacion  es  el  siguiente:  Estimamos  (21.9.2),  (21.9.3)  o  (21.9.4) 
mediante  MCO;  dividimos  el  coeficiente  estimado  de  Ft_i  en  cada  caso  entre  su  error  estandar 
a  fin  de  calcular  el  estadistico  tau  (r)  y  consultamos  las  tablas  DF  (o  cualquier  software  estadis- 
tico).  Si  el  valor  absoluto  calculado  del  estadistico  tau  (|r|)  excede  la  DF  absoluta  o  los  valores 
criticos  tau  de  MacKinnon,  rechazamos  la  hipotesis  de  que  8  =  0,  en  cuyo  caso  la  serie  de  tiempo 
es  estacionaria.  Por  otra  parte,  si  el  |xj  calculado  no  excede  el  valor  critico  tau,  no  rechazamos  la 
hipotesis  nula,  en  cuyo  caso  la  serie  de  tiempo  es  no  estacionaria.  Hay  que  asegurarse  de  utilizar 
los  valores  criticos  r  apropiados.  En  la  mayoria  de  las  aplicaciones,  el  valor  tau  es  negativo.  Por 
consiguiente,  tambien  vale  decir  que  si  el  valor  tau  calculado  (negativo)  es  mas  pequeno  (es  decir, 
mas  negativo)  que  el  valor  critico  tau,  rechazamos  la  hipotesis  nula  (es  decir,  la  serie  de  tiempo  es 
estacionaria);  de  lo  contrario,  no  la  rechazamos  (es  decir,  la  serie  de  tiempo  es  no  estacionaria). 

Regresemos  al  ejemplo  de  las  series  de  tiempo  del  PIB  de  Estados  Unidos.  Para  estas  series, 
los  resultados  de  las  tres  regresiones  (21.9.2),  (21.9.4)  y  (21.9.5)  son  los  siguientes:  la  variable 
dependiente  en  cada  caso  es  A  Yt=  ALP1B,,  donde  LPIB  es  el  logaritmo  del  PIB  real. 


ALP1B,  =  0.000968LP1B,_! 

t=  (12.9270)  R2  =  0.0147  d=  1.3194 


(21.9.6) 


aTpIb,  =  0.0221  -  0.00165LPIB,_! 

(21.9.7) 

t=  (2.4342)  (-1.5294)  R2  —  0.0096  d=  1.3484 


aTpib,  = 

t  — 


0.2092  +  0.0002 1-  0.0269LPIBr_i 

(1.8991)  (1.7040)  (-1.8102) 

R2  =  0.0215  d  —  1.3308 


(21.9.8) 


28  Descartamos  la  posibilidad  de  que  S  >  0  porque  en  ese  caso  p  >  1,  y  de  ser  asl,  la  serie  de  tiempo  subya- 
cente  serfa  explosiva. 
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El  principal  interes  en  todas  estas  regresiones  radica  en  el  valor  t(=  r)  del  coeficiente  LPIB, 

Si  analizamos  la  tabla  D.7  del  apendice  D,  observaremos  que  los  valores  criticos  tau  a  5%  para 
un  tamaiio  de  muestra  de  250  (el  numero  mas  proximo  a  la  muestra  de  244  observaciones  que 
estudiamos  aqui)  son  —  1 .95  (sin  intercepto,  sin  tendencia),  —2.88  (intercepto  pero  sin  tendencia) 
y  —3.43  (intercepto  y  tendencia).  EViews  y  otros  paquetes  estadisticos  proporcionan  valores  cri¬ 
ticos  para  el  tamano  de  muestra  del  analisis. 

Antes  de  examinar  los  resultados,  tenemos  que  decidir  cual  de  los  tres  modelos  es  el  adecuado. 
Debemos  descartar  el  modelo  (21.9.6)  porque  el  coeficiente  LPIB,_i,  que  es  igual  a  8,  es  positivo. 
Pero  en  vista  de  que  8  =  {p  —  1),  una  8  positiva  implicaria  que  p  >  1.  Aunque  es  una  posibilidad 
teorica,  se  descarta  en  este  caso  porque  la  serie  de  tiempo  LPIB  seria  explosiva.29  Por  tanto,  no 
quedan  mas  que  los  modelos  (21.9.7)  y  (21.9.8).  En  ambos  casos,  el  coeficiente  estimado  8  es 
negativo,  lo  cual  implica  que  la  p  estimada  es  menor  que  1.  Para  ambos  modelos,  los  valores 
estimados  p  son  0.9984  y  0.9731,  respectivamente.  Ahora,  la  unica  pregunta  pendiente  es  saber 
si  estos  valores  son  estadisticamente  menores  que  1  de  manera  significativa,  para  que  podamos 
decir  que  la  serie  de  tiempo  del  PIB  es  estacionaria. 

Para  el  modelo  (2 1 .9.7),  el  valor  r  estimado  es  —  1 .5294,  mientras  que  el  valor  critico  r  a  5%, 
como  ya  senalamos,  es  —2.88.  Como  en  terminos  absolutes  el  primer  valor  es  mas  pequeno  que 
el  segundo,  la  conclusion  es  que  la  serie  de  tiempo  LPIB  es  no  estacionaria.30 

Sucede  lo  mismo  con  el  modelo  (21.9.8).  El  valor  r  calculado  de  —1.8102,  en  terminos  abso- 
lutos,  es  menor  incluso  que  el  valor  critico  a  5%  de  —3.43. 

Por  tanto,  con  base  en  el  analisis  grafico,  el  correlograma  y  la  prueba  Dickey-Fuller,  la  con¬ 
clusion  es  que  para  los  periodos  trimestrales  de  1947  a  2007,  la  serie  de  tiempo  LPIB  de  Estados 
Unidos  fue  no  estacionaria;  es  decir,  contenia  una  raiz  unitaria,  o  tenia  una  tendencia  estocastica. 

La  prueba  Dickey-Fuller  aumentada  (DFA) 

A1  llevar  a  cabo  la  prueba  DF  en  (21.9.2),  (21.9.4)  o  (21.9.5)  supusimos  que  el  termino  de  error 
u,  no  estaba  correlacionado.  Pero  Dickey  y  Fuller  desarrollaron  una  prueba  cuando  dicho  ter¬ 
mino  si  esta  correlacionado,  la  cual  se  conoce  como  prueba  Dickey-Fuller  aumentada  (DFA). 
Esta  prueba  implica  “aumentar”  las  tres  ecuaciones  anteriores  mediante  la  adicion  de  los  valores 
rezagados  de  la  variable  dependiente  AY,.  Para  un  ejemplo  especifico,  suponga  que  utilizamos 
(21.9.5).  La  prueba  DFA  consiste  en  este  caso  en  estimar  la  siguiente  regresion: 


m 


(21.9.9) 


donde  s,  es  un  termino  de  error  puro  de  ruido  bianco  y  donde  A7,_i  =  (7,_i  —  7,_ 2),  AY, -2 
—  (y,_ 2  —  Y,_ 3),  etc.  El  numero  de  terminos  de  diferencia  rezagados  que  debemos  incluir  con 
frecuencia  se  determina  de  manera  empirica,  con  la  idea  de  incluir  los  terminos  suficientes  para 
que  el  termino  de  error  en  (21.9.9)  no  este  serialmente  relacionado  y  sea  posible  obtener  una 
estimacion  insesgada  de  8,  el  coeficiente  de  7,_  1  rezagado.  EViews  6  tiene  una  opcion  que  selec- 
ciona  automaticamente  la  longitud  del  rezago  con  base  en  los  criterios  de  informacion  de  Akaike, 
Schwarz  y  otros.  En  la  DFA  se  sigue  probando  8  =  0,  y  ademas  esta  prueba  sigue  la  misma  distri¬ 
bution  asintotica  que  el  estadistico  DF,  por  lo  que  se  sirven  los  mismos  valores  criticos. 

Con  el  fin  de  dar  una  idea  general  de  este  procedimiento  estimamos  (21.9.9)  para  la  serie 
LPIB.  Como  se  tienen  datos  trimestrales,  decidimos  usar  cuatro  rezagos.  Los  resultados  de  la 
regresion  DFA  fueron  los  siguientes:31 


29  De  manera  mas  tecnica,  como  (21 .9.2)  es  una  ecuacion  diferencial  de  primer  orden,  la  llamada  condicion 
de  estabilidad  requiere  que  |p|  <  1 . 

30  Otra  forma  de  expresar  esto  serfa  que  el  valor  r  calculado  deba  ser  mas  negativo  que  el  valor  critico  r,  lo 
cual  no  sucede  aqui.  Por  tanto,  mantenemos  la  conclusion.  Como  en  general  se  espera  que  S  sea  negativa, 
el  estadistico  estimado  r  tendra  signo  negativo.  Por  tanto,  un  valor  r  grande  y  negativo  suele  ser  un  indicio 
de  estacionariedad. 

31  Se  consideraron  diferencias  rezagadas  de  orden  superior,  pero  fueron  insignificantes. 
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ALPIB, 

t 


0.2677  +  0.0003f  -  0.0352LPIB,_i  +  0.2990ALPIB,_i  +  0.1451  ALPIB ,_2  -  0.0621  ALPIB, _3  -  0.0876ALPIB, 
(2.4130)  (2.2561)  (-2.3443)  (4.6255)  (2.1575)  (-0.9205)  (-1.3438) 

R2  =  0.1617  d=  2.0075 

(21.9.10) 

El  valor  t{—  r)  del  coeficiente  LPIB,_i  rezagado  (=  S)  es  —2.3443,  que  en  terminos  absolutos 
es  incluso  mucho  menor  que  el  valor  crltico  r  a  10%  de  —3.1378,  lo  cual  indica  de  nuevo  que 
aun  despues  de  tener  cuidado  de  la  posible  autocorrelacion  en  el  termino  de  error,  la  serie  LP1B 
es  no  estacionaria.  ( Nota :  El  comando  @trend  de  EViews  genera  automaticamente  la  variable  de 
tiempo  o  tendencia.) 

(■.Pucdc  ser  este  el  resultado  de  haber  elegido  solo  cuatro  valores  rezagados  de  ALPIB?  Apli- 
camos  el  criterio  de  Schwartz  con  14  valores  rezagados  de  ALPIB,  lo  que  arrojo  el  valor  tau  8  de 
—  1.8102.  Aun  entonces,  este  valor  tau  no  fue  significative  en  el  nivel  de  10%  (el  valor  critico  tau 
en  este  nivel  fue  de  —3.1376).  A1  parecer,  el  logaritmo  del  PIB  es  no  estacionario. 

Prueba  de  la  significance  de  mas  de  un  coeficiente: 
prueba  F 

Suponga  que  estimamos  el  modelo  (21.9.5)  y  probamos  la  hipotesis  de  que  =  fii  =  0,  es 
decir,  el  modelo  es  MCA  sin  deriva  ni  tendencia.  Para  probar  esta  hipotesis  conjunta  utilizamos 
la  prueba  F  restringida  analizada  en  el  capitulo  8.  Es  decir,  estimamos  (21.9.5)  (la  regresion 
no  restringida)  y  luego  estimamos  (21.9.5)  otra  vez,  lo  que  elimina  el  intercepto  y  la  tendencia. 
Luego  utilizamos  la  prueba  F restringida,  como  se  muestra  en  la  ecuacion  (8.6.9),  excepto  que  no 
se  emplea  la  tabla  F  convencional  a  fin  de  obtener  los  valores  criticos  F.  Como  hicieron  para  el 
estadistico  r,  Dickey  y  Fuller  desarrollaron  valores  criticos  F  para  esta  situacion;  una  muestra  de 
lo  anterior  se  da  en  el  apendice  D,  tabla  D.7.  En  el  ejercicio  21.27  se  proporciona  un  ejemplo 
de  lo  anterior. 

Las  pruebas  de  rafz  unitaria  Phillips-Perron  (PP)32 

Un  supuesto  importante  de  la  prueba  DF  es  que  los  terminos  de  error  u,  estan  identica  e  inde- 
pendientemente  distribuidos.  La  prueba  DFA  ajusta  la  prueba  DF  a  fin  de  tener  cuidado  de  una 
posible  correlacion  serial  en  los  terminos  de  error  al  agregar  los  terminos  de  diferencia  rezagados 
de  la  regresada.  Phillips  y  Perron  utilizan  metodos  estadisticos  no  parametricos  para  evitar  la 
correlacion  serial  en  los  terminos  de  error,  sin  anadir  terminos  de  diferencia  rezagados.  Como 
la  distribucion  asintotica  de  la  prueba  PP  es  la  misma  que  la  prueba  DFA,  no  examinaremos  con 
mayor  detalle  este  tema. 

Prueba  de  cambios  estructurales 

Los  datos  macroeconomicos  introducidos  en  la  seccion  21.1  (consulte  los  datos  reales  en  el 
sitio  Web  del  libro)  corresponden  al  periodo  1947-2007,  61  anos.  En  este  periodo  la  economia 
de  Estados  Unidos  paso  por  varios  ciclos  economicos  de  diferentes  duraciones.  Los  ciclos  eco- 
nomicos  estan  marcados  por  periodos  de  recesiones  y  de  expansiones.  Es  muy  probable  que  un 
ciclo  economico  sea  distinto  de  otro,  lo  que  puede  reflejar  rupturas  estructurales  o  cambios 
estructurales  en  la  economia. 

Por  ejemplo,  considere  el  primer  embargo  petrolero,  en  1973.  Los  precios  del  petroleo  se  cua- 
driplicaron.  Los  precios  volvieron  a  aumentar  de  manera  sustancial  despues  del  segundo  embargo 
petrolero,  en  1979.  Como  es  natural,  estas  conmociones  afectan  el  comportamiento  economico. 
Por  tanto,  si  queremos  hacer  una  regresion  del  gasto  de  consumo  personal  (GCP)  sobre  el  ingreso 
personal  disponible  (1PD),  es  muy  probable  que  el  intercepto,  la  pendiente  o  ambas  varien  de  un 
ciclo  economico  a  otro  (recuerde  la  prueba  de  Chow  de  rupturas  estructurales).  Esto  es  lo  que  se 
entiende  por  cambios  estructurales. 


32  P.C.B.  Phillips  y  P.  Perron,  "Testing  for  a  Unit  Root  in  Time  Series  Regression",  en  Biometrika,  vol.  75,  1 988, 
pp.  335-346.  La  prueba  PP  ahora  se  incluye  en  varios  software  estadisticos. 
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Por  ejemplo,  Perron  sostiene  que  las  pruebas  estandar  de  la  hipotesis  de  raiz  unitaria  pueden 
no  ser  confiables  en  presencia  de  cambios  estructurales.33  Existen  varias  formas  de  probar  los 
cambios  estructurales  y  explicarlos;  la  mas  sencilla  supone  el  uso  de  variables  dicotomas.  Sin 
embargo,  un  analisis  a  fondo  de  las  diversas  pruebas  de  rupturas  estructurales  va  mucho  mas  alia 
del  texto  y  es  mejor  dejarlo  a  las  referencias.34  No  obstante,  vea  el  ejercicio  21.28. 

Crftica  de  las  pruebas  de  rafz  unitaria35 

Se  han  analizado  varias  pruebas  de  ralz  unitaria  y  ademas  existen  todavia  otras  mas.  La  pregunta 
es:  (',por  que  hay  tantas  pruebas  de  raiz  unitaria?  La  respuesta  radica  en  su  tamano  y  potencia. 
Por  tamano  de  la  prueba  nos  referimos  al  nivel  de  significancia  (es  decir,  la  probabilidad  de  co¬ 
meter  un  error  tipo  I),  y  por  potencia  de  una  prueba  a  la  probabilidad  de  rechazar  la  hipotesis  nula 
cuando  es  falsa.  Calculamos  la  potencia  de  una  prueba  al  restar  la  probabilidad  de  un  error  tipo 
II  de  1;  el  error  tipo  II  es  la  probabilidad  de  aceptar  una  hipotesis  nula  falsa.  El  maximo  poder  es 
1 .  Casi  todas  las  pruebas  de  raiz  unitaria  se  basan  en  la  hipotesis  nula  de  que  la  serie  de  tiempo 
que  se  analiza  tiene  una  raiz  unitaria;  o  sea,  es  no  estacionaria.  La  hipotesis  alterna  es  que  la  serie 
de  tiempo  es  estacionaria. 

Tamano  de  la  prueba 

Recordara,  del  capitulo  13,  la  distincion  entre  los  niveles  de  significancia  nominales  y  los  verda- 
deros.  La  prueba  DF  es  sensible  a  la  forma  en  que  se  lleva  a  cabo.  Recuerde  que  analizamos  tres 
variedades  de  pruebas  DF:  1 )  una  caminata  puramente  aleatoria,  2)  una  caminata  aleatoria  con 
deriva  y  3)  una  caminata  aleatoria  con  deriva  y  tendencia.  Si,  por  ejemplo,  el  verdadero  modelo 
es  1)  pero  se  estima  un  modelo  2)  y  se  concluye  que,  por  ejemplo,  con  un  nivel  de  significancia 
de  5%  la  serie  es  estacionaria,  esta  conclusion  puede  ser  erronea  porque  el  verdadero  nivel  de  sig¬ 
nificancia  en  este  caso  es  mucho  mayor  que  5%. 36  El  tamano  de  la  distorsion  tambien  puede 
deberse  a  la  exclusion  de  componentes  de  promedios  moviles  (PM)  del  modelo  (sobre  promedios 
moviles,  vease  el  capitulo  22). 

Potencia  de  la  prueba 

La  mayoria  de  las  pruebas  del  tipo  DF  tienen  poco  poder;  es  decir,  tienden  a  aceptar  la  nulidad 
de  la  raiz  unitaria  con  mas  frecuencia  de  la  garantizada.  En  otras  palabras,  estas  pruebas  pueden 
encontrar  una  raiz  unitaria  aunque  no  exista.  Hay  varias  razones  para  esto.  En  primer  lugar,  la 
potencia  depende  del  lapso  de  los  datos  mas  que  del  solo  tamano  de  la  muestra.  Para  una  mues- 
tra  dada  de  tamano  n,  la  potencia  es  mayor  cuando  el  lapso  es  grande.  En  consecuencia,  la(s) 
prueba(s)  basada(s)  en  30  observaciones  sobre  un  lapso  de  30  anos  quiza  tengan  mas  potencia 
que  una  basada  por  ejemplo  en  100  observaciones  durante  un  lapso  de  100  dias.  En  segundo 
lugar,  si  p  &  1  pero  no  es  exactamente  1,  la  prueba  de  raiz  unitaria  puede  diagnosticar  la  serie  de 
tiempo  como  no  estacionaria.  En  tercer  lugar,  estos  tipos  de  prueba  suponen  una  raiz  unitaria; 
es  decir,  suponen  que  la  serie  de  tiempo  dada  es  7(1).  Pero  si  una  serie  de  tiempo  es  integrada  de 
orden  mayor  que  1,  por  ejemplo,  7(2),  habra  mas  de  una  raiz  unitaria.  De  ser  asi,  se  puede  utili- 
zar  la  prueba  Dickey-Pantula.37  En  cuarto  lugar,  si  hay  rupturas  estructurales  en  una  serie  de 
tiempo  (vease  el  capitulo  sobre  variables  dicotomas)  debidas,  por  ejemplo,  al  embargo  petrolero 
por  parte  de  la  OPEP,  las  pruebas  de  raiz  unitarias  quiza  no  las  reflejen. 


33  P.  Perron,  "The  Great  Crash,  the  Oil  Price  Shock  and  the  Unit  Root  Hypothesis",  Econometrica,  vol.  57, 
1989,  pp.  1361-1401. 

34  Hay  un  analisis  accesible  en  James  H.  Stock  y  Mark  W.  Watson,  Introduction  to  Econometrics,  2a.  ed.,  Pear- 
son/Addison-Wesley,  Boston,  2007,  pp.  565-571.  Para  un  analisis  mas  minucioso,  vease  G.S.  Maddala  e  In- 
Moo  Kim,  Unit  Roots,  Cointegration,  and  Structural  Change,  Cambridge  University  Press,  Nueva  York,  1998. 

35  Para  un  analisis  detallado,  vease  Terrence  C.  Mills,  op.  cit.,  pp.  87-88. 

36  Para  un  experimento  Monte  Carlo  al  respecto,  vease  Charemza  et  al.,  op.  cit.,  p.  114. 

37  D.A.  Dickey  y  S.  Pantula,  "Determining  the  Order  of  Differencing  in  Autoregressive  Processes",  en  Journal 
of  Business  and  Economic  Statistics,  vol.  5,  1 987,  pp.  455-461 . 
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Por  tanto,  al  aplicar  las  pruebas  de  ralz  unitaria  se  deben  tener  en  cuenta  sus  limitaciones. 
Desde  luego,  Perron  y  Ng,  Elliot,  Rothenberg  y  Stock,  Fuller  y  Leybounre38  modificaron  esas 
pruebas.  Debido  a  lo  anterior,  Maddala  y  Kim  afirman  que  las  pruebas  tradicionales  DF,  DFA  y 
PP  deben  descartarse.  Quiza  eso  llegue  a  suceder  conforme  los  paquetes  de  software  de  econo¬ 
metria  incorporen  nuevas  pruebas.  Pero  debemos  anadir  que  hasta  la  fecha  no  existe  una  prueba 
uniformemente  poderosa  de  la  hipotesis  de  la  ralz  unitaria. 

21.10  Transformacion  de  las  series  de  tiempo  no  estacionarias 


Ahora  que  conocemos  el  problema  asociado  a  las  series  de  tiempo  no  estacionarias,  surge  la 
pregunta  practica  de  que  hay  que  hacer.  Para  evitar  el  problema  de  la  regresion  espuria  que  pu- 
diese  surgir  al  hacer  la  regresion  de  una  serie  de  tiempo  no  estacionaria  sobre  una  o  mas  series 
de  tiempo  no  estacionarias  tenemos  que  transformar  las  series  de  tiempo  no  estacionarias  en 
estacionarias.  El  metodo  de  transformacion  depende  de  que  las  series  de  tiempo  sean  procesos 
estacionarios  en  diferencias  (PED)  o  procesos  estacionarios  con  tendencia  (PET).  Considerare- 
mos  cada  caso  a  su  debido  tiempo. 

Procesos  estacionarios  en  diferencias 

Si  una  serie  de  tiempo  tiene  una  raiz  unitaria,  las  primeras  diferencias  de  tales  series  son  estaciona¬ 
rias.39  En  consecuencia,  la  solution  aqui  es  tomar  las  primeras  diferencias  de  las  series  de  tiempo. 

Al  reconsiderar  la  serie  de  tiempo  LPIB  de  Estados  Unidos,  ya  vimos  que  tiene  raiz  unitaria. 
Ahora  veremos  lo  que  sucede  si  se  toman  las  primeras  diferencias  de  la  serie  LPIB. 

Sea  ALP1B,  =  (LPIB,  —  LPIB,_i).  Por  conveniencia,  sea  D,  =  ALPIB,.  Ahora  considere  la 
siguiente  regresion: 

AD,  =  0.00557  -  0.671 17), -l 

?  =  (7.1407)  (-11.0204)  (21.10.1) 

R2  =  0.3360  d  —  2.0542 

El  valor  critico  r  a  1%  para  la  DF  es  —3.4574.  Como  la  r  calculada  (=  t)  de  —  1 1.0204  es  mas 
negativa  que  el  valor  critico,  concluimos  que  la  serie  LPIB  en  primeras  diferencias  es  estacio¬ 
naria;  o  sea,  es  7(0),  como  se  muestra  en  la  figura  21.9.  Si  comparamos  esta  figure  con  la  21.1, 
observara  las  evidentes  diferencias  entre  ambas. 


FIGURA  21 .9 

Primeras  diferencias  de 
los  logaritmos  del  PIB 
de  Estados  Unidos, 
1947-2007  (trimestral). 


38  Un  estudio  de  estas  pruebas  se  encuentra  en  Maddala  et  al.,  op.  at.,  cap.  4. 

39  Si  una  serie  de  tiempo  es  1(2),  contendra  dos  rafces  unitarias,  en  cuyo  caso  tendremos  que  diferenciar  dos 
veces.  Si  es  1(d),  debe  diferenciarse  d  veces,  donde  d  es  cualquier  entero. 
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Procesos  estacionarios  en  tendencia 

Como  vimos  en  la  figura  21.5,  un  PET  es  estacionario  alrededor  de  la  llnea  de  tendencia.  Por 
tanto,  la  manera  mas  sencilla  de  convertir  en  estacionaria  una  serie  de  tiempo  es  hacer  la  regre¬ 
sion  de  ella  sobre  el  tiempo  y  los  residuos  de  tal  regresion  seran  estacionarios.  En  otras  palabras, 
realizamos  la  siguiente  regresion: 


Y,=Pi+P2t  +  ut  (21.10.2) 

donde  Y,  es  la  serie  de  tiempo  estudiada  y  /  es  la  variable  de  tendencia  medida  de  manera  crono- 
logica. 

Ahora  bien, 


ut  =  (Yt-fa-h.t)  (21.10.3) 

sera  estacionaria.  A  ut  se  le  conoce  como  serie  de  tiempo  sin  tendencia. 

Es  importante  notar  que  tal  vez  la  tendencia  sea  no  lineal.  Por  ejemplo,  puede  ser 

Yt=fa  +p2t  +  Pit2+ut  (21.10.4) 

que  es  una  serie  con  tendencia  cuadratica.  De  ser  asi,  los  residuos  de  (21.10.4)  seran  ahora  una 
serie  (cuadratica)  de  tiempo  sin  tendencia. 

Debe  senalarse  que  si  una  serie  de  tiempo  es  PED  pero  se  trata  como  si  fuera  PET,  esto  se 
conoce  como  hipodiferenciacion.  Por  otra  parte,  si  una  serie  de  tiempo  es  PET  pero  se  le  trata 
como  PED,  se  conoce  como  hiperdiferenciacion.  Las  consecuencias  de  estos  errores  de  especi- 
ficacion  pueden  ser  graves,  segun  la  manera  en  que  se  manejen  las  propiedades  de  correlacion  de 
los  terminos  de  error  resultantes.40 

Para  ver  que  sucede  si  se  confunde  una  serie  PET  con  una  serie  PED  o  viceversa,  la  figura 
21.10  muestra  las  primeras  diferencias  de  LP1B  y  los  residuos  del  LP1B  estimado  a  partir  de  la 
regresion  PET  (21.10.2): 


FIGURA  21.10 
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40  Para  un  analisis  detallado  de  esto,  vease  Maddala  et  al.r  op.  cit.,  seccion  2.7. 
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Un  vistazo  a  esta  figura  revela  que  las  primeras  diferencias  del  logaritmo  del  P1B  real  son  esta- 
cionarias  (como  lo  confirma  la  regresion  [21.10.1]),  pero  los  residuos  de  la  linea  de  tendencia 
(RESI1)  no. 

En  resumen,  “. . .  es  muy  importante  aplicar  el  tipo  correcto  de  transformacion  de  estacionarie- 
dad  a  los  datos  si  no  son  ya  estacionarios.  La  mayorla  de  los  mercados  financieros  generan  datos 
sobre  precios,  tasas  o  rendimientos  que  son  no  estacionarios  debido  a  una  tendencia  estocastica 
mas  que  determinista.  Rara  vez  es  apropiado  suprimir  la  tendencia  de  los  datos  ajustando  una 
linea  de  tendencia  y  tomando  desviaciones.  En  cambio,  para  suprimir  la  tendencia  de  los  datos  es 
preciso  tomar  las  primeras  diferencias,  por  lo  general  el  logaritmo  del  precio  o  las  tasas,  porque  en- 
tonces  los  datos  estacionarios  transformados  corresponderan  a  los  rendimientos  del  mercado”.41 


21.11 


Cointegracion:  regresion  de  una  serie  de  tiempo  con  raiz 
unitaria  sobre  otra  serie  de  tiempo  con  raiz  miitaria 


Ya  advertimos  que  la  regresion  de  una  serie  de  tiempo  no  estacionaria  sobre  otra  no  estacionaria 
puede  causar  una  regresion  espuria.  Suponga  que  consideramos  las  series  de  tiempo  LGCP  y 
LIDP  presentadas  en  la  seccion  21.1  (consulte  los  datos  reales  en  el  sitio  Web  del  libro).  Si  somete 
estas  series  de  manera  individual  a  un  analisis  de  raiz  unitaria  encontrara  que  ambas  son  7(1);  es 
decir,  contienen  una  tendencia  estocastica.  Es  muy  posible  que  las  dos  series  compartan  la  misma 
tendencia  comun,  por  lo  que  la  regresion  de  una  sobre  la  otra  no  sera  necesariamente  espuria. 

Para  ser  especificos,  usaremos  los  datos  de  las  series  de  tiempo  economicas  de  Estados  Unidos 
(vease  la  seccion  21.1  y  el  sitio  Web  del  libro)  y  ejecutaremos  la  siguiente  regresion  de  LGCP 
sobre  LIPD: 

LGCP,  =  fix  +  ftLIDP,  +  u,  (21.11.1) 

donde  L  significa  logaritmo.  (F  es  la  elasticidad  del  gasto  de  consumo  personal  real  respecto 
del  ingreso  personal  disponible  real.  Para  efectos  ilustrativos,  le  denominaremos  elasticidad  del 
consumo.  Esto  se  expresa  como: 

u,  =  LGCP,  -Pi-  /32LIDP,  (21 .1 1 .2) 

Suponga  que  ahora  sometemos  u,  a  un  analisis  de  raiz  unitaria  y  descubrimos  que  es  estacionaria, 
es  decir,  1(0).  Esta  es  una  situacion  interesante,  pues  LGCP,  y  LIDP,  son  individualmente  7(1), 
es  decir,  tienen  tendencias  estocasticas,  y  su  combinacion  lineal  (21.1 1.2)  es  7(0).  Se  puede  decir 
que  la  combinacion  lineal  cancela  las  tendencias  estocasticas  de  las  dos  series.  Si  consideramos 
el  consumo  y  el  ingreso  como  dos  variables  7(1),  el  ahorro  (definido  como  ingreso  menos  con¬ 
sumo)  puede  ser  7(0).  Como  resultado,  una  regresion  del  consumo  sobre  el  ingreso,  como  en 
(21.11.1),  puede  ser  significativa  (es  decir,  no  espuria).  En  este  caso  decimos  que  las  dos  varia¬ 
bles  estan  cointegradas.  En  terminos  economicos,  dos  variables  seran  cointegradas  si  existe  una 
relacion  de  largo  plazo,  o  de  equilibrio,  entre  ambas.  La  teoria  economica  a  menudo  se  expresa 
en  terminos  de  equilibrio,  como  la  teoria  monetaria  cuantitativa  de  Fisher  o  la  teoria  de  la  paridad 
del  poder  adquisitivo  (PPA),  por  mencionar  algunas. 

En  resumen,  en  tanto  se  verifique  que  los  residuos  de  las  regresiones  como  (21.11.1)  son  7(0) 
o  estacionarios,  la  metodologia  tradicional  de  regresion  (inclusive  las  pruebas  t  y  F )  aprendida 
hasta  ahora  es  aplicable  a  las  series  de  tiempo  (no  estacionarias).  La  contribucion  valiosa  de  los 
conceptos  de  raiz  unitaria,  cointegracion,  etc.,  es  que  obligan  a  determinar  si  los  residuos  de  la 
regresion  son  estacionarios.  Como  observa  Granger:  “Una  prueba  para  la  cointegracion  puede 
considerarse  como  una  preprueba  para  evitar  las  situaciones  de  regresiones  espurias”.42 

En  el  lenguaje  de  la  teoria  de  la  cointegracion,  una  regresion  como  (21.1 1.1)  se  conoce  como 
regresion  cointegrante,  y  el  parametro  de  pendiente  /L  como  parametro  cointegrante.  El  con- 


41  Carol  Alexander,  op.  cit.,  p.  324. 

42C.W.J.  Granger,  "Developments  in  the  Study  of  Co-Integrated  Economic  Variables",  en  Oxford  Bulletin  of 
Economics  and  Statistics,  vol.  48,  1 986,  p.  226. 
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cepto  de  cointegracion  puede  extenderse  a  un  modelo  de  regresion  que  contenga  k  regresoras,  en 
cuyo  caso  se  tendran  k  parametros  cointegrantes. 

Prueba  de  cointegracion 

En  las  publicaciones  especializadas  se  han  propuesto  varios  metodos  para  probar  la  cointegra¬ 
cion.  Aqui  consideraremos  un  metodo  relativamente  sencillo:  la  prueba  de  raiz  unitaria  DF  o 
DFA  sobre  los  residuos  estimados  a  partir  de  la  regresion  cointegrante.43 

Prueba  de  Engle-Granger  (EG)  o  prueba  de  Engle-Granger  aumentada  (EGA) 

Ya  sabemos  como  aplicar  las  pruebas  de  raiz  unitaria  DF  o  DFA.  Solo  requerimos  estimar  una  re¬ 
gresion  como  (21.11.1),  obtener  los  residuos  y  utilizar  la  prueba  DF  o  DFA.44  Sin  embargo,  debe 
tomarse  una  precaucion.  Como  la  u,  estimada  se  basa  en  el  parametro  de  cointegracion  estimado 
@2,  los  valores  criticos  de  significance  DF  y  DFA  no  son  del  todo  apropiados.  Engle  y  Granger 
calcularon  estos  valores,  los  cuales  se  encuentran  en  las  references  45  Por  consiguiente,  en  el 
contexto  actual,  las  pruebas  DF  y  DFA  se  conocen  como  la  prueba  de  Engle-Granger  (EG) 
y  la  prueba  de  Engle-Granger  aumentada  (EGA).  Sin  embargo,  varios  paquetes  de  software 
reportan  actualmente  estos  valores  criticos  junto  con  otros  resultados. 

Ilustraremos  estas  pruebas.  Con  los  datos  introducidos  en  la  seccion  21.1  y  publicados  en  el 
sitio  Web  del  libro,  primero  realizamos  la  regresion  de  LGCPC  sobre  LIPDC  y  obtuvimos  la 
siguiente  regresion: 

LGCP,  =  -0.1942  +  1.01 14LIDP, 

t=  (-8.2328)  (348.5429)  (21.11.3) 

R2  =  0.9980  d  —  0.1558 

Como  LGCP  y  L1DP  son  no  estacionarios  en  lo  individual,  existe  la  posibilidad  de  que  esta  re¬ 
gresion  sea  espuria.  Pero  cuando  llevamos  a  cabo  una  prueba  de  raiz  unitaria  sobre  los  residuos 
obtenidos  en  (21.11.3),  resulto  lo  siguiente: 

A  ut  —  — 0.0764h,_i 

t  =  (-3.0458)  (21.11.4) 

7?2  =  0.0369  d=  2.5389 

Los  valores  criticos  asintoticos  Engle-Granger  a  5%  y  10%  son  de  alrededor  de  —3.34  y  —3.04, 
respectivamente.  Por  tanto,  los  residuos  de  la  regresion  son  no  estacionarios  en  el  nivel  de  5%. 
Seria  dificil  aceptar  esta  causa,  pues  la  teoria  economica  indica  que  debe  haber  una  relacion  es- 
table  entre  GCP  e  IPD. 

Volveremos  a  estimar  la  ecuacion  (21.1 1.3)  con  la  variable  de  tendencia  y  luego  veremos  si 
los  residuos  de  esta  ecuacion  son  estacionarios.  Primero  presentaremos  los  resultados  y  despues 
analizaremos  lo  que  ocurre. 

LGCP,  =  2.8130+  0.0037,+  0.5844L1PD, 

t  =  (21.3491)  (22.9394)  (31.2754)  (21.11.3a) 

R2  =  0.9994  d  =  0.2956 


43  Esta  diferencia  existe  entre  pruebas  de  rafces  unitarias  y  pruebas  de  cointegracion.  Como  senalan  David  A. 
Dickey,  Dennis  W.  Jansen  y  Daniel  I.  Thornton:  "Las  pruebas  para  rafces  unitarias  se  realizan  sobre  series  de 
tiempo  univariadas  [es  decir,  singulares].  En  contraste,  la  cointegracion  trata  con  la  relacion  entre  un  grupo 
de  variables,  en  donde  cada  una  (incondicionalmente)  tiene  una  rafz  unitaria".  Vease  su  artfculo  "A  Primer 
on  Cointegration  with  an  Application  to  Money  and  Income",  en  Economic  Review,  Federal  Reserve  Bank 

of  St.  Louis,  marzo-abril  de  1991,  p.  59.  Como  el  nombre  lo  indica,  es  una  introduccion  excelente  para  la 
prueba  de  cointegracion. 

44  Si  GCP  e  IPD  no  estan  cointegrados,  las  combinaciones  lineales  que  de  ellos  se  hagan  no  seran  estaciona- 
rias  y,  por  consiguiente,  los  residuos  ut  tampoco  lo  seran. 

45  R.F.  Engle  y  C.W.J.  Granger,  "Co-integration  and  Error  Correction:  Representation,  Estimation  and  Test¬ 
ing",  en  Econometrica,  vol.  55,  1987,  pp.  251-276. 
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Para  ver  si  los  residuos  de  esta  regresion  son  estacionarios,  obtuvimos  los  siguientes  resultados 
(compare  con  la  ecuacion  [21.1 1.4]): 

A  ut  —  — 0.1498m,  _i 

t  =  (-4.4545)  (21.ll.4o) 

R2  =  0.0758  d  =  2.3931 

Nota:  u,  es  el  residuo  de  la  ecuacion  (21.1 1.3a). 

La  prueba  DF  muestra  ahora  que  estos  residuos  son  estacionarios.  Aunque  se  use  la  prueba 
DFA  con  varios  rezagos,  los  residuos  siguen  siendo  estacionarios. 

(',Que  sucede  aqui?  Aunque  los  residuos  de  la  regresion  (21.11  Aa)  son  estacionarios,  es  decir, 
7(0),  son  estacionarios  alrededor  de  una  tendencia  de  tiempo  determinista,  que  es  lineal.  Es  de¬ 
cir,  los  residuos  son  7(0)  mas  una  tendencia  lineal.  Como  ya  senalamos,  una  serie  de  tiempo 
puede  contener  tanto  una  tendencia  determinista  como  una  estocastica. 

Antes  de  continuar,  debe  senalarse  que  estos  datos  de  series  de  tiempo  abarcan  un  periodo 
largo  (61  anos).  Es  muy  posible  que,  a  causa  de  cambios  estructurales  en  la  economia  de  Estados 
Unidos  durante  este  periodo,  los  resultados  y  conclusiones  difieran.  En  el  ejercicio  21.28  se  le 
pedira  comprobar  esta  posibilidad. 


Cointegracion  y  mecanismo  de  correccion  de  errores  (MCE) 

Acabamos  de  demostrar  que,  teniendo  en  cuenta  la  tendencia  (lineal),  LGCP  y  L1PD  estan  coin- 
tegradas,  es  decir,  hay  una  relacion  de  equilibrio  de  largo  plazo  entre  las  dos.  Desde  luego,  en  el 
corto  plazo  puede  haber  desequilibrio.  En  consecuencia,  podemos  tratar  el  termino  de  error  en 
la  siguiente  ecuacion  como  el  “error  de  equilibrio”.  Ademas,  con  este  termino  de  error  podemos 
relacionar  el  comportamiento  de  corto  plazo  del  GCP  con  su  valor  de  largo  plazo: 

ut  =  LGCP,  -  Pi  -  /32LIPD  -  p3t  (21 .1 1 .5) 

El  mecanismo  de  correccion  de  errores  (MCE),  utilizado  por  primera  vez  por  Sargan46  y 
popularizado  mas  tarde  por  Engle  y  Granger,  corrige  el  desequilibrio.  Un  importante  teorema, 
conocido  como  teorema  de  representation  de  Granger,  afirma  que  si  dos  variables  Y  v  A  estan 
cointegradas,  la  relacion  entre  las  dos  se  expresa  como  MCE.  Para  ver  lo  que  esto  significa,  re- 
vertiremos  el  ejemplo  de  GCP  e  1PD.  Ahora  considere  el  siguiente  modelo: 

ALGCP,  =  ao  +  oqALIPD,  +  a2u,_i  +  £,  (21 .1 1 .6) 

donde  e,  es  un  termino  de  error  de  ruido  bianco  y  ut-\  es  el  valor  rezagado  del  termino  de  error 
de  la  ecuacion  (21.11.5). 

La  ecuacion  MCE  (21.11.5)  establece  que  ALGCP  depende  de  AL1PD  y  tambien  del  termino 
de  error  de  equilibrio.47  Si  este  ultimo  es  diferente  de  cero,  el  modelo  no  esta  en  equilibrio. 
Suponga  que  ALIPD  es  cero  y  que  ut-\  es  positiva.  Esto  significa  que  LGCP,_i  es  dema- 
siado  alto  para  estar  en  equilibrio,  es  decir,  LGCP,_i  esta  por  encima  de  su  valor  de  equilibrio 
(ao  +  aiLIDP,_i).  Como  se  espera  que  a2  sea  negativa,  el  termino  a2w,_i  es  negativo  y,  por 
tanto,  ALGCP,  sera  negativo  para  restablecer  el  equilibrio.  Es  decir,  si  LGCP,  esta  por  arriba  de 
su  valor  de  equilibrio,  comenzara  a  disminuir  en  el  siguiente  periodo  a  fin  de  corregir  el  error 
de  equilibrio;  de  ahi  el  nombre  de  MCE.  De  igual  manera,  si  i  es  negativa  (es  decir,  LGCP 
esta  por  debajo  de  su  valor  de  equilibrio),  a2«,_  i  sera  positivo,  lo  cual  provocara  que  ALGCP,  sea 
positivo,  lo  que  provocara  que  LGCP,  se  incremente  en  el  periodo  t.  Por  tanto,  el  valor  absoluto 
de  a2  determina  la  rapidez  con  que  se  restablecera  el  equilibrio.  En  la  practica,  m,_i  se  estima 


46J.D.  Sargan,  "Wages  and  Prices  in  the  United  Kingdom:  A  Study  in  Econometric  Methodology",  publicado 
en  K.F.  Wallis  y  D.F.  Hendry  (eds.),  Quantitative  Economics  and  Econometric  Analysis,  Basil  Blackwell,  Oxford, 
Inglaterra,  1984. 

47  El  siguiente  analisis  se  baso  en  Gary  Koop,  op.  cit.,  pp.  159-160,  y  Kerry  Peterson,  op.  cit.,  seccion  8.5. 
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por  z),_ i  =  (LGCP,  —  /Si  —  /62LIPD  —  y03 1).  Tenga  en  cuenta  que  se  espera  que  el  coeficiente  de 
correction  del  error  0L2  sea  negativo  (,;por  que?). 

De  regreso  al  ejemplo  ilustrativo,  la  contraparte  emplrica  de  (21.1 1.6)  es: 

ALGCP,  =  0.0061  +  0.2967 ALIDP,  -  0.1223zq _i 

f  =  (9.6753)  (6.2282)  (-3.8461)  (21.11.7) 

R2  =  0.1658  d=  2.1496 

Estadlsticamente,  el  termino  MCE  es  significative),  lo  que  indica  que  el  GCP  se  ajusta  al  1PD 
con  un  rezago;  solo  alrededor  de  12%  de  la  discrepancia  entre  el  GCP  de  largo  y  corto  plazos  se 
corrige  dentro  de  un  trimestre. 

En  la  regresion  (21.11.7)  observamos  que  la  elasticidad  del  consumo  de  corto  plazo  es  de  casi 
0.29.  La  elasticidad  de  largo  plazo  es  de  casi  0.58,  lo  cual  se  observa  en  la  ecuacion  (21.1 1.3a). 
Antes  de  concluir  esta  section,  es  importante  recordar  la  recomendacion  de  S.  G.  Hall: 

Mientras  que  el  concepto  de  cointegracion  es  sin  duda  un  fundamento  teorico  importante  del  modelo 
de  correction  de  errores,  hay  aun  diversos  problemas  en  torno  a  su  aplicacion  practica;  los  valores 
criticos  y  el  desempeno  en  muestras  pequenas  de  muchas  de  las  pruebas  son  desconocidos  para  un 
amplio  rango  de  modelos;  la  inspection  bien  informada  del  correlograma  puede  ser  aun  una  herra- 
mienta  importante.48 


21.12  Algunas  aplicaciones  economicas 


Concluimos  este  capitulo  con  el  examen  de  algunos  ejemplos  concretos. 


EJEMPLO  21.1 

Oferta  mensual  de 
dinero  Ml  en 
Estados  Unidos,  de 
enero  de  1959  a  1 
de  marzo  de  2008 


La  figura  21.11  muestra  la  oferta  de  dinero  Ml  en  Estados  Unidos  de  enero  de  1959  a  1  de 
marzo  de  2008.  De  lo  que  sabemos  sobre  la  estacionariedad,  parece  que  la  serie  de  tiempo 
oferta  de  dinero  Ml  es  no  estacionaria,  lo  cual  se  confirma  mediante  un  analisis  de  rafz  unitaria. 


FIGURA  21.11  Oferta  de  dinero  en  Estados  Unidos  de  enero  de  1959  a 
marzo  de  2008. 


Numero  de  observation 


( continue/ ) 


48  S.G.  Hall,  "An  Application  of  the  Granger  and  Engle  Two-Step  Estimation  Procedure  to  the  United 
Kingdom  Aggregate  Wage  Data",  en  Oxford  Bulletin  of  Economics  and  Statistics,  vol.  48,  num.  3,  agosto  de 
1 986,  p.  238.  Vease  tambien  John  Y.  Campbell  y  Pierre  Perron,  "Pitfalls  and  Opportunities:  What  Macroeco¬ 
nomists  Should  Know  about  Unit  Roots",  en  NBER  (National  Bureau  of  Economic  Research),  Macroeconomics 
Annual  1991,  pp.  141-219. 
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EJEMPLO  21.1  (Nota:  Para  ahorrar  espacio,  no  se  dan  los  datos  reales,  pero  pueden  obtenerse  de  la  Federal 

(, continuation )  Reserve  Board  o  el  Federal  Reserve  Bank  of  St.  Louis.) 

AMt  =  -0.1347  +  0.0293t-  0.01 02/W,  ■, 

t  =  (—0.1 4)  (2.62)  (-2.30)  (21.12.1) 

R2  =  0.01  30  d  =  2.2325 

Los  valores  crfticos  ra  1%,  5%  y  10%  son  —3.9811,  —3.4210  y  —3.1329,  respectivamente. 
Como  el  valor  t  de  —2.30  es  menos  negativo  que  cualquiera  de  estos  valores  crfticos,  la  con¬ 
clusion  es  que  la  serie  de  tiempo  Ml  es  no  estacionaria;  o  sea,  contiene  una  rafz  unitaria  o  es 
/(I).  Aunque  se  introdujeron  diversos  valores  rezagados  de  AMt  (al  estilo  DFA),  la  conclusion  no 
vario.  Por  otra  parte,  descubrimos  que  las  primeras  diferencias  de  la  oferta  de  dinero  Ml  eran 
estacionarias  (verifique  esto). 


EJEMPLO  21.2 

Tipo  de  cambio 
EUA/RU:  Enero 
de  1971  a  abril  de 
2008 


La  figura  21.12  proporciona  la  grafica  del  tipo  de  cambio  ($/£)  de  enero  de  1971  a  abril  de 
2008  para  un  total  de  286  observaciones.  A  estas  alturas,  el  lector  debe  reconocer  que  esta  serie 
de  tiempo  es  no  estacionaria.  Al  efectuar  las  pruebas  de  rafz  unitaria,  obtuvimos  los  siguientes 
estadfsticos  r:  —0.82  (sin  intercepto  ni  tendencia),  —1 .96  (intercepto)  y  —1 .33  (con  intercepto 
y  tendencia).  Cada  uno  de  ellos,  en  valor  absoluto,  fue  menor  que  su  valor  crftico  r  tornado  de 
las  tablas  DF  apropiadas,  por  lo  cual  se  confirma  la  impresion  grafica  de  que  la  serie  de  tiempo 
del  tipo  de  cambio  EUA/RU  es  no  estacionaria. 


FIGURA  21.12 

Tipo  de  cambio  Estados 
Unidos/RU:  enero  de 
1971  a  abril  de  2008. 


EJEMPLO  21.3 

Indice  de  precios  al 
consumidor  (IPC) 
en  Estados  Unidos 
de  enero  de  1947  a 
marzo  de  2008 


La  figura  21 .1  3  muestra  el  IPC  en  Estados  Unidos  de  enero  de  1 947  a  marzo  de  2008,  para  un 
total  de  733  observaciones.  La  serie  IPC,  al  igual  que  la  serie  Ml  ya  considerada,  muestra  una 
tendencia  ascendente  sostenida.  El  ejercicio  de  rafz  unitaria  proporciono  los  siguientes  resulta- 
dos: 

ACPit  =  -0.01 082  +  0.00068 1  -  0.00096CPIt-i  +  0.40669ACPI,_1 

f  =  (—0.54)  (4.27)  (-1.77)  (12.03)  (21.12.2) 

R2  =  0.3570  d=  1.9295 
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EJEMPLO  21.3  FIGURA  21.13  IPC  en  Estados  Unidos,  enero  de  1947  a  marzo  de  2008. 
(i continuation ) 


Numero  de  observation 


El  valor  t  (=  r)  del  IPCt_i  es  —1.77.  El  valor  critico  a  1 0%  es  —3.1  31  7.  Como,  en  terminos  absolu- 
tos,  la  r  calculada  es  menor  que  la  r  critica,  la  conclusion  es  que  el  IPC  no  es  una  serie  de  tiempo 
estacionaria.  Podemos  caracterizar  lo  anterior  como  una  tendencia  estocastica  (ipor  que?).  Sin 
embargo,  si  tomamos  las  primeras  diferencias  de  la  serie  IPC,  descubrira  que  son  estacionarias. 
Por  tanto,  el  IPC  es  una  serie  de  tiempo  estacionaria  en  diferencias  (ED). 


EJEMPLO  21.4 

lEstan  cointegradas 
las  tasas  de  los  pa¬ 
gares  del  Tesoro  a 
tres  y  seis  meses? 


La  figura  21 .14  presenta  la  grafica  de  las  tasas  de  los  pagares  del  Tesoro  de  Estados  Unidos  (con 
vencimiento  constante)  a  tres  y  seis  meses,  de  enero  de  1982  a  marzo  de  2008,  para  un  total 
de  315  observaciones.  ^Muestra  la  grafica  que  las  dos  tasas  estan  cointegradas?  Es  decir,  ^existe 
una  relation  de  equilibrio  entre  ambas?  Con  base  en  la  teoria  financiera,  se  podrfa  esperar  que 
asf  sucediera;  de  otra  manera,  los  arbitros  aprovecharfan  cualquier  discrepancia  entre  las  tasas  de 
corto  y  largo  plazos.  En  primer  lugar,  veamos  si  las  dos  series  de  tiempo  son  estacionarias. 


FIGURA  21.14 

Tasas  de  los  pagares  del 
Tesoro  de  Estados  Uni¬ 
dos  a  tres  y  seis  meses 
(con  vencimiento  cons¬ 
tante). 


Ano 


( continua ) 
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EJEMPLO  21.4  Con  base  en  el  modelo  de  caminata  puramente  aleatoria  (es  decir,  sin  intercepto  ni  ten- 

( continuation )  dencia),  ambas  tasas  fueron  estacionarias.  Despues  de  incluir  el  intercepto  y  la  tendencia,  asf 

como  una  diferencia  rezagada,  el  resultado  senalo  que  las  dos  tasas  pueden  ser  estacionarias  en 
tendencia;  el  coeficiente  de  tendencia  en  ambos  casos  fue  negativo  y  significativo  en  un  nivel 
de  7%.  Asf,  segun  los  resultados  que  se  acepten,  las  dos  tasas  son  estacionarias  o  estacionarias 
en  tendencia. 

Al  hacer  la  regresion  de  la  tasa  de  los  pagares  del  Tesoro  a  seis  meses  (TB6)  sobre  la  de  tres 
meses,  obtuvimos  la  siguiente  regresion: 

f§6,  =  0.0842  +  1 .0078TB3( 

t  =  (3.65)  (252.39)  (21.12.3) 

R1 2 3 4 5 6  =  0.995  d=  0.4035 

Al  aplicar  la  prueba  de  rafz  unitaria  a  los  residuos  de  la  regresion  anterior  descubrimos  que  los 
residuos  eran  estacionarios,  lo  cual  indica  que  las  tasas  de  interes  de  los  pagares  a  tres  y  seis 
meses  estaban  cointegradas.  Con  este  conocimiento  obtuvimos  el  siguiente  modelo  de  correc- 
cion  del  error  (MCE): 

ATB6f  =  -0.0047  4-  0.8992ATB3,  -  0.18 55ut^ 

t  =  (—0.82)  (47.77)  (-5.69)  (21.12.4) 

R2  =  0.880  d  =  1.5376 

donde  u(_i  es  el  valor  rezagado  del  termino  de  correccion  del  error  para  el  periodo  anterior. 
Como  muestran  estos  resultados,  0.1 9  de  la  discrepancia  en  las  dos  tasas  de  interes  del  mes  an¬ 
terior  se  elimina  al  siguiente  mes.49  Ademas,  los  cambios  de  corto  plazo  en  las  tasas  de  interes  de 
los  pagares  del  Tesoro  a  tres  meses  se  reflejan  de  inmediato  en  la  tasa  de  interes  de  los  pagares 
del  Tesoro  a  seis  meses,  pues  el  coeficiente  de  la  pendiente  entre  las  dos  es  0.8992.  Esto  no  debe 
sorprender  en  vista  de  la  eficiencia  de  los  mercados  de  dinero  de  Estados  Unidos. 


Resuinen  y 
conclusiones 


1 .  El  analisis  de  regresion  basado  en  information  de  series  de  tiempo  supone  implicitamente 
que  las  series  de  tiempo  en  las  cuales  se  basa  son  estacionarias.  Las  pruebas  clasicas  t  y  F, 
entre  otras,  se  basan  en  este  supuesto. 

2.  En  la  practica,  la  mayoria  de  las  series  de  tiempo  economicas  son  no  estacionarias. 

3.  Decimos  que  un  proceso  estocastico  es  estacionario  debil  si  su  media,  varianza  y  autocova- 
rianzas  son  constantes  en  el  tiempo  (es  decir,  son  invariantes  en  el  tiempo). 

4.  En  un  nivel  informal,  la  estacionariedad  debil  se  prueba  mediante  el  correlograma  de  una 
serie  de  tiempo,  que  es  una  grafica  de  la  autocorrelation  en  diferentes  rezagos.  Para  una  serie 
de  tiempo  estacionaria,  el  correlograma  se  desvanece  rapidamente,  mientras  que  para  las 
series  no  estacionarias,  lo  hace  de  manera  gradual.  Cuando  una  serie  es  puramente  aleatoria, 
las  autocorrelaciones  en  todos  los  rezagos  1  y  superiores  son  cero. 

5.  En  un  nivel  formal,  la  estacionariedad  se  verifica  averiguando  si  la  serie  de  tiempo  contiene 
una  raiz  unitaria.  Las  pruebas  de  Dickey-Fuller  (DF)  y  Dickey-Fuller  Aumentada  (DFA) 
sirven  para  este  proposito. 

6.  Una  serie  de  tiempo  economica  puede  ser  estacionaria  en  tendencia  (ET)  o  estacionaria 
en  diferencia  (ED).  Una  serie  de  tiempo  ET  tiene  tendencia  determinista,  mientras  que  una 
serie  de  tiempo  ED  tiene  tendencia  variable  o  estocastica.  La  practica  comun  de  incluir  la 


49  Como  ambas  tasas  de  interes  de  los  pagares  del  Tesoro  se  expresan  en  forma  porcentual,  esto  indicarfa 
que  si  la  tasa  de  interes  de  los  pagares  del  Tesoro  a  seis  meses  fuera  mayor  que  la  tasa  a  tres  meses,  en  una 
cantidad  mayor  que  la  esperada  a  priori  en  el  ultimo  mes,  el  siguiente  mes  esta  se  reducirfa  en  0.1 9  puntos 
porcentuales  a  fin  de  restablecer  la  relacion  de  largo  plazo  entre  las  dos  tasas  de  interes.  Para  conocer  mas 
sobre  la  teorfa  en  la  que  se  basa  la  relacion  entre  las  tasas  de  interes  de  corto  y  largo  plazos,  consulte  cual- 
quier  libro  de  texto  sobre  banca  o  dinero  y  lea  sobre  la  estructura  de  los  plazos  de  las  tasas  de  interes. 
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EJERCICIOS 


variable  de  tiempo  o  de  tendencia  en  un  modelo  de  regresion  para  eliminar  la  influencia  de 
la  tendencia  en  los  datos  solo  se  justifica  para  series  de  tiempo  ET.  Las  pruebas  DF  y  DFA  se 
aplican  para  determinar  si  una  serie  de  tiempo  es  ET  o  ED. 

7.  La  regresion  de  una  variable  de  serie  de  tiempo  sobre  una  o  mas  variables  de  series  de  tiempo 
a  menudo  puede  dar  resultados  sin  sentido  o  espurios.  Este  fenomeno  se  conoce  como  regre¬ 
sion  espuria.  Una  forma  de  evitarla  es  establecer  si  las  series  de  tiempo  estan  cointegradas. 

8.  Cointegracion  significa  que,  a  pesar  de  no  ser  estacionarias  en  un  nivel  individual,  una 
combination  lineal  de  dos  o  mas  series  de  tiempo  puede  ser  estacionaria.  Las  pruebas  Engle- 
Granger  (EG)  y  Engle-Granger  aumentada  (EGA)  sirven  para  averiguar  si  dos  o  mas 
series  de  tiempo  estan  cointegradas. 

9.  La  cointegracion  de  dos  (o  mas)  series  de  tiempo  indica  que  existe  una  relacion  de  largo 
plazo,  o  de  equilibrio,  entre  ellas. 

10.  El  mecanismo  de  correccion  de  errores  (MCE)  de  Engle  y  Granger  sirve  para  conciliar  el 
comportamiento  de  corto  plazo  de  una  variable  economica  con  su  comportamiento  de  largo 
plazo. 

1 1.  El  campo  de  la  econometria  de  series  de  tiempo  ha  evolucionado.  Los  resultados  y  pruebas 
establecidas  en  algunos  casos  son  tentativos  y  queda  aun  mucho  trabajo  pendiente.  Una 
pregunta  importante,  aun  pendiente,  es  por  que  algunas  series  de  tiempo  economicas  son 
estacionarias  y  otras  no  lo  son. 


Preguntas 

21.1.  ^Que  significa  estacionariedad  debil? 

21.2.  (',Quc  significa  serie  de  tiempo  integrada? 

21.3.  ^Cual  es  el  significado  de  raiz  unitaria? 

21.4.  Si  una  serie  de  tiempo  es  7(3),  ^cuantas  veces  debe  diferenciarse  para  hacerla  estaciona¬ 
ria? 

21.5.  ^Que  son  las  pruebas  Dickey-Fuller  (DF)  y  DF  aumentada? 

21.6.  (',Quc  son  las  pruebas  Engle-Granger  (EG)  y  EG  aumentada? 

21.7.  ^,Cual  es  el  significado  de  cointegracion? 

21.8.  ('.Cual  es  la  diferencia,  si  acaso,  entre  pruebas  de  raiz  unitaria  y  pruebas  de  cointegracion? 

21.9.  (',Que  es  la  regresion  espuria? 

21.10.  ('.Cual  es  la  conexion  entre  cointegracion  y  regresion  espuria? 

21.11.  ('.Cual  es  la  diferencia  entre  una  tendencia  determinista  y  una  tendencia  estocastica? 

21.12.  (',Quc  significa  proceso  estacionario  en  tendencia  (PET)  y  proceso  estacionario  en  dife- 
rencias  (PED)? 

21.13.  ^Que  es  una  caminata  aleatoria  (modelo)? 

21.14.  “Para  un  proceso  estocastico  de  caminata  aleatoria,  la  varianza  es  infinita.”  /,Esta  de 
acuerdo?  ,',Por  que? 

21.15.  ^Que  es  el  mecanismo  de  correccion  de  errores  (MCE)?  ^Cual  es  su  relacion  con  la  coin¬ 
tegracion? 

Ejercicios  empiricos 

21.16.  Con  los  datos  de  series  de  tiempo  economicas  de  Estados  Unidos  que  se  presentan  en  el 
sitio  Web  del  libro,  obtenga  los  correlogramas  muestrales  hasta  36  rezagos  para  las  series 
de  tiempo  LGCP,  LIPD,  LUE  (utilidades  empresariales)  y  LDIVIDENDOS.  <',Quc  patron 
general  observa?  Por  intuition,  (',cualcs  de  estas  series  parecen  estacionarias? 

21.17.  Para  cada  una  de  las  series  de  tiempo  del  ejercicio  21.16,  utilice  la  prueba  DF  para  de¬ 
terminar  si  estas  series  contienen  una  raiz  unitaria.  Si  existe  una  raiz  unitaria,  (',c6mo 
caracteriza  esa  serie  de  tiempo? 
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21.18.  Continue  con  el  ejercicio  21.17.  ^Como  determina  si  una  prueba  DFA  es  mas  apropiada 
que  una  prueba  DF? 

21.19.  Considere  las  series  de  tiempo  de  dividendos  y  utilidades  contenidas  en  los  datos  sobre  la 
economia  de  Estados  Unidos  publicados  en  el  sitio  Web  del  libro.  Como  los  dividendos 
dependen  de  las  utilidades,  considere  el  siguiente  modelo  simple: 

LDIVIDENDOS,  =  /i,  +  &LUE  +  u, 

a)  ^Esperaria  que  esta  regresion  sufra  del  fenomeno  de  regresion  espuria?  (',Por  que? 

b)  ^Estan  cointegradas  las  series  de  tiempo  de  los  logaritmos  de  los  dividendos  y  las 
utilidades?  (',C6mo  probar  esto  explicitamente?  Si  despues  de  la  prueba  encuentra  que 
estan  cointegradas,  (',cambiaria  la  respuesta  en  a )? 

c)  Con  el  mecanismo  de  correccion  de  errores  (MCE)  estudie  el  comportamiento  de 
corto  y  largo  plazos  de  los  dividendos  en  relation  con  las  utilidades. 

d)  Si  examina  las  series  de  LDIVIDENDOS  y  LUE  individualmente,  (',presentan  tenden- 
cias  estocasticas  o  deterministas?  /,Quc  pruebas  utiliza? 

*e)  Suponga  que  LDIVIDENDOS  y  LUE  estan  cointegradas.  Entonces,  en  lugar  de  efec- 
tuar  la  regresion  de  los  dividendos  sobre  las  utilidades,  hace  la  regresion  de  las  utili¬ 
dades  sobre  los  dividendos.  /,Es  valida  tal  regresion? 

21 .20.  Obtenga  las  primeras  diferencias  de  las  series  de  tiempo  contenidas  en  los  datos  sobre  la 
economia  de  Estados  Unidos  que  se  presentan  en  el  sitio  Web  del  libro  y  grafiquelas.  Ob¬ 
tenga  tambien  un  correlograma  de  cada  serie  de  tiempo  hasta  36  rezagos.  (',Que  le  llama 
la  atencion  sobre  estos  correlogramas? 

21.21.  En  lugar  de  efectuar  la  regresion  de  LDIVIDENDOS  sobre  LUE  en  la  forma  de  nivel, 
suponga  que  efectua  la  regresion  de  las  primeras  diferencias  de  LDIVIDENDOS  sobre 
las  primeras  diferencias  de  LUE.  ^Incluiria  el  intercepto  en  esta  regresion?  <',Por  que? 
Muestre  los  calculos. 

21.22.  Continue  con  el  ejercicio  anterior.  /.Como  probaria  la  presencia  de  estacionariedad  en  la 
regresion  de  primeras  diferencias?  En  este  ejemplo,  (',quc  esperaria  a  priori  y  por  que? 
Muestre  todos  los  calculos. 

21 .23.  Con  base  en  el  numero  de  nuevas  viviendas  construidas  en  el  Reino  Unido  ( X)  de  1948  a 
1984,  Terence  Mills  obtuvo  los  siguientes  resultados  de  regresion:1’ 

AXt=  31.03  -  0.188W,_i 

se  =  (12.50)  (0.080) 

(/=)  r  (-2.35) 

Nota:  El  valor  critico  r  a  5%  es  —2.95  y  el  valor  critico  r  a  10%  es  —2.60. 

a)  Con  base  en  estos  resultados,  <4 a  serie  de  tiempo  de  nuevas  construcciones  de  vivien¬ 
das  es  estacionaria  o  no  estacionaria?  Por  otra  parte,  (',liay  una  raiz  unitaria  en  esta 
serie  de  tiempo?  (',C6mo  sabe? 

b)  Si  fuera  a  utilizar  la  prueba  t  usual,  ^es  el  valor  t  observado  estadisticamente  signifi¬ 
cative?  Con  esta  base,  (',habna  concluido  que  esta  serie  de  tiempo  es  estacionaria? 

c)  Ahora  considere  los  siguientes  resultados  de  regresion: 

£?Xt=  4.76  -  1.39AA,_!  +  0.313A2A,_! 
se  =  (5.06)  (0.236)  (0.163) 

(/  =  )t  (-5.89) 


*  Opcional. 

f  Terence  C.  Mills,  op.  cit.,  p.  127.  La  notacion  se  altero  un  poco. 
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donde  A2  es  el  operador  de  segundas  diferencias,  es  decir,  primeras  diferencias  de  las  pri- 
meras  diferencias.  El  valor  estimado  es  ahora  estadlsticamente  significativo.  /Que  puede 
decir  sobre  la  estacionariedad  de  la  serie  de  tiempo  en  cuestion? 

Nota:  El  proposito  de  la  regresion  anterior  es  determinar  si  hay  una  segunda  raiz 
unitaria  en  la  serie  de  tiempo. 

21.24.  Genere  dos  series  de  caminata  aleatoria  como  se  indica  en  (21.7.1)  y  (21.7.2)  y  haga  la  re¬ 
gresion  de  una  sobre  la  otra.  Repita  este  ejercicio  pero  ahora  con  sus  primeras  diferencias 
y  verifique  que  en  esta  regresion  el  valor  de  R2  sea  casi  cero  y  que  la  d  de  Durbin- Watson 
sea  casi  2. 

21.25.  Para  mostrar  que  dos  variables,  cada  una  con  tendencia  determinista,  pueden  originar 
una  regresion  espuria,  Charemza  et  al.  obtuvieron  la  siguiente  regresion  con  base  en  30 
observaciones:* 


Yt  =  5.92  +  0.03 OX, 
t  —  (9.9)  (21.2) 

R2  —  0.92  d  —  0.06 

donde  Yx  =  1,  Y2  =  2, .  .  . ,  Yn  =  n  yXj  =  1,X2  =  4,  .  .  .  ,X„  =  n 2. 

a)  /Que  tipo  de  tendencia  muestra  7?  /y  X? 

b )  Grafique  las  dos  variables  y  la  linea  de  regresion.  (',Quc  conclusion  general  obtiene  de 
esta  grafica? 

21.26.  De  los  datos  correspondientes  del  primer  trimestre  de  1971  alcuartode  1988  para  Canada 
se  obtuvieron  los  siguientes  resultados  de  la  regresion: 

1.  InMd,  =  -10.2571  +  1.5975  InPIB, 

t=  (-12.9422)  (25.8865) 

R2  =  0.9463  d  —  0.3254 

2.  AlnMT,  =  0.0095  +  0.5833  AlnPIB, 

t=  (2.4957)  (1.8958) 

R2  =  0.0885  d—  1.7399 

3.  A  u,  —  — 0.1958m,_i 

(r  =  r)  (—2.2521) 

R2  =  0.1118  d—  1.4767 

donde  Ml  =  la  oferta  de  dinero  Ml,  PIB  =  producto  interno  bruto,  ambas  medidas  en 
miles  de  millones  de  dolares  canadienses,  In  es  el  logaritmo  natural  y  u,  representa  los 
residuos  estimados  de  la  regresion  1 . 

a)  Interprete  las  regresiones  1  y  2. 

b )  /.Sospecha  que  la  regresion  1  es  espuria?  pPor  que? 

c)  ,',La  regresion  2  es  espuria?  /.Como  sabe? 

d)  De  los  resultados  de  la  regresion  3,  /.cambiana  su  conclusion  de  b)l  /Por  que? 


Charemza  et  al.,  op.  at.,  p.  93. 
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e )  Ahora  considere  la  siguiente  regresion: 

MnMT,=  0.0084  +  0.7340AlnPIB,  -  0.08112, _i 

t=  (2.0496)  (2.0636)  (-0.8537) 

R2  =  0.1066  d  —  1.6697 

/Que  indica  esta  regresion?  /Le  ayuda  a  decidir  si  la  regresion  1  es  espuria  o  no  lo  es? 

21.27.  Las  siguientes  regresiones  se  basan  en  los  datos  del  IPC  de  Estados  Unidos  de  1960  a 

2007,  para  un  total  de  48  observaciones  anuales: 

1.  AIPC,  =  0.0334IPC,„i 

t=  (12.37) 

R2  =  0.0703  d  =  0.3663  SCR  =  206.65 

2.  AIPC,  =  1.8662  +  0.0192IPC,_i 

t  —  (3.27)  (3.86) 

R2  =  0.249  d=  0.4462  SCR=  166.921 

3.  AIPC,  =  1.1611  +  0.5344t  —  0.1077IPC,_i 

t  =  (2.37)  (4.80)  (-4.02) 

R2  =  0.507  d  =  0.6071  SCR=  109.608 

donde  SCR  =  suma  de  cuadrados  residual. 

a)  A1  examinar  las  regresiones  anteriores,  /que  puede  decir  respecto  de  la  estacionarie- 
dad  de  la  serie  de  tiempo  IPC? 

b)  /.Como  escogeria  entre  los  tres  modelos? 

c)  La  ecuacion  (1)  es  la  ecuacion  (3)  menos  el  intercepto  y  la  tendencia.  /Con  que  prueba 
decidiria  si  las  restricciones  implicitas  del  modelo  1  son  validas?  ( Sugerencia :  Utilice 
las  pruebas  Dickey-Fuller  t  y  F.  Use  los  valores  aproximados  dados  en  el  apendice 
D,  tabla  D.7.) 

21.28.  Como  indicamos  en  el  texto,  puede  haber  varias  rupturas  estructurales  en  el  conjunto  de 

datos  de  series  de  tiempo  economicas  de  Estados  Unidos  de  la  seccion  21.1.  Las  variables 

dicotomas  son  una  buena  forma  de  incorporar  estos  cambios  en  los  datos. 

a)  Con  variables  dicotomas  para  designar  tres  periodos  diferentes  relacionados  con  los 
embargos  petroleros  de  1973  y  1979,  efectue  una  regresion  del  logaritmo  de  gasto  de 
consumo  personal  (LGCP)  sobre  el  logaritmo  del  ingreso  personal  disponible  (LIPD). 
/Hubo  algun  cambio  en  los  resultados?  /Cual  es  ahora  su  decision  sobre  la  hipotesis 
de  raiz  unitaria? 

b)  Varios  sitios  Web  presentan  los  ciclos  economicos  oficiales  que  pueden  haber  afectado 
los  datos  de  series  de  tiempo  economicas  de  Estados  Unidos  que  analizamos  en  la 
seccion  21.1.  Consulte,  por  ejemplo,  http://www.nber.org/cycles/cyclesmain.html. 
Con  la  informacion  que  ahi  se  encuentra,  cree  variables  dicotomas  que  indiquen  algu- 
nos  de  los  principales  ciclos  y  verifique  los  resultados  de  la  regresion  de  LGCP  sobre 
LIPD.  /Hu bo  algun  cambio? 


Capitulo 


Econometria 

de  series  de  tiempo: 

pronosticos 

En  la  introduccion  dijimos  que  los  pronosticos  son  una  parte  importante  del  analisis  econome- 
trico,  y  para  algunas  personas  constituye  el  area  mas  importante.  ^Como  se  pronostican  variables 
economicas  como  el  P1B,  inflacion,  tasas  de  cambio,  precios  de  acciones,  tasas  de  desempleo  y 
miles  de  otras  variables  economicas?  En  este  capitulo  analizaremos  dos  metodos  para  pronosticar 
que  han  adquirido  mucha  popularidad:  1)  el  autorregresivo  integrado  de  promedios  moviles 
(ARIMA),  conocido  como  metodologla  de  Box-Jenkins,1  y  2)  el  de  vectores  autorregresivos 
(VAR). 

En  este  capitulo  tambien  estudiaremos  los  problemas  especiales  de  pronosticar  precios  de 
los  activos  financieros,  como  los  de  las  acciones  y  las  tasas  de  cambio.  Estos  precios  de  los  acti- 
vos  se  caracterizan  por  un  fenomeno  conocido  como  acumulacion  de  volatilidad,  lo  que 
significa  que  existen  lapsos  en  los  que  muestran  amplias  variaciones  durante  prolongados  perio- 
dos,  seguidos  por  un  intervalo  de  tranquilidad  relativa.  Basta  observar  el  indice  Dow  Jones  de 
los  ultimos  tiempos.  Los  llamados  modelos  con  heteroscedasticidad  condicional  autorregre- 
siva  (ARCH)  o  modelos  con  heteroscedasticidad  condicional  autorregresiva  generalizada 
(GARCH)  representan  la  mencionada  acumulacion  de  volatilidad. 

El  tema  de  los  pronosticos  economicos  es  amplio,  por  lo  que  se  han  escrito  libros  especiali- 
zados  sobre  esta  materia.  El  objetivo  de  este  capitulo  consiste  en  proporcionar  al  lector  solo  una 
pequeiia  muestra  de  este  tema.  El  lector  interesado  puede  consultar  la  bibliografia  para  un  estudio 
mas  profundo.  Por  fortuna,  la  mayoria  del  software  moderno  para  la  econometria  contiene  faciles 
introducciones  a  las  diversas  tecnicas  que  estudiamos  aqui. 

El  vinculo  entre  este  capitulo  y  el  anterior  reside  en  que  los  metodos  de  pronosticos  analizados 
antes  presuponen  que  las  series  de  tiempo  subyacentes  son  estacionarias  o  que  pueden  convertirse 
en  estacionarias  mediante  transformaciones  adecuadas.  Conforme  avancemos  a  lo  largo  de  este 
capitulo  veremos  la  utilization  de  diversos  conceptos  que  presentamos  en  el  capitulo  anterior. 


22.1  Enfoques  de  los  pronosticos  economicos 


En  terminos  generales,  hay  cinco  enfoques  de  los  pronosticos  economicos  basados  en  series  de 
tiempo:  1)  metodos  de  suavizamiento  exponencial,  2)  modelos  de  regresion  uniecuacionales, 
3)  modelos  de  regresion  de  ecuaciones  simultaneas,  4)  modelos  autorregresivos  integrados  de 
promedios  moviles  (ARIMA)  y  5)  modelos  de  vectores  autorregresivos  (VAR). 


1  G.P.E.  Box  y  G.M.  Jenkins,  Time  Series  Analysis:  Forecasting  and  Control,  edicion  revisada,  Holden  Day, 
San  Francisco,  1 978. 
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Metodos  de  suavizamiento  exponential2 

En  esencia  son  metodos  para  ajustar  una  curva  apropiada  a  datos  histaricos  de  una  determinada 
serie  de  tiempo.  Existen  diversos  tipos,  como  el  de  suavizamiento  exponencial  simple,  el  metodo 
lineal  de  Holt  y  el  metodo  de  Holt-  Winters,  asi  como  sus  variaciones.  Aunque  todavla  se  emplean 
en  varias  areas  para  pronosticos  en  los  negocios  y  la  economia,  ahora  se  complementan  (^,0  sus- 
tituyen?)  por  los  otros  cuatro  metodos  mencionados.  No  los  analizaremos  en  este  capitulo,  pues 
se  desvian  mucho  de  la  materia. 


Modelos  de  regresion  uniecuacionales 

Dedicamos  una  parte  sustancial  de  esta  obra  a  los  modelos  de  regresion  uniecuacionales.  Como 
ejemplo  de  un  modelo  de  regresion  uniecuacional,  considere  la  funcion  de  demanda  de  automo- 
viles.  La  teoria  economica  postula  que  la  demanda  de  automoviles  es  funcion  de  sus  precios, 
gasto  en  publicidad,  ingreso  del  consumidor,  tasa  de  interes  (como  medida  del  costo  de  endeu- 
damiento)  y  otras  variables  relevantes  (por  ejemplo,  tamano  de  la  familia  o  distancia  al  trabajo). 
A  partir  de  las  series  de  tiempo  estimamos  un  modelo  apropiado  de  demanda  de  automoviles 
(lineal,  log-lineal  o  no  lineal),  el  cual  sirve  para  el  pronostico  de  la  demanda  en  el  futuro.  Por 
supuesto,  como  vimos  en  el  capitulo  5,  los  errores  de  pronostico  aumentan  rapidamente  si  se  va 
demasiado  lejos  hacia  el  futuro. 


Modelos  de  regresion  de  ecuaciones  simultaneas3 

En  los  capitulos  18,  19  y  20  consideramos  los  modelos  de  ecuaciones  simultaneas.  En  su  mo¬ 
menta  de  apogeo,  durante  las  decadas  de  1960  y  1970,  los  modelos  elaborados  para  describir  la 
economia  de  Estados  Unidos  basados  en  ecuaciones  simultaneas  dominaron  el  campo  de  los  pro¬ 
nosticos  economicos.  Pero  mas  adelante,  el  encanto  por  ese  tipo  de  pronosticos  termino  debido 
a  las  crisis  del  precio  del  petroleo  de  1973  y  de  1979  y  a  la  critica  de  Lucas.4  El  argumento  de 
esta  critica  es  que  los  parametros  estimados  de  un  modelo  econometrico  dependen  de  la  politica 
prevaleciente  en  el  momento  en  que  se  estima  el  modelo  y  cambian  conforme  lo  hace  la  politica. 
En  resumen,  los  parametros  estimados  no  son  invariantes  ante  cambios  de  politica. 

Por  ejemplo,  en  octubre  de  1979,  el  Banco  de  la  Reserva  Federal  cambio  su  politica  monetaria 
en  forma  sustancial.  En  lugar  de  fijar  metas  de  tasas  de  interes,  anuncio  que  en  adelante  super- 
visaria  la  tasa  de  crecimiento  de  la  oferta  monetaria.  Ante  un  cambio  tan  relevante,  un  modelo 
econometrico  estimado  a  partir  de  informacion  pasada  tendria  poco  valor  predictivo  con  el  nuevo 
regimen.  En  estos  tiempos,  el  interes  del  Banco  de  la  Reserva  Federal  paso  de  controlar  la  oferta 
monetaria  a  controlar  la  tasa  de  interes  de  corto  plazo  (la  tasa  de  los  fondos  federales). 

Modelos  ARIMA 

La  publicacion  de  G.  P.  E.  Box  y  G.  M.  Jenkins  Time  Series  Analysis:  Forecasting  and  Con¬ 
trol,  op.  cit.,  marco  el  comienzo  de  una  nueva  generation  de  herramientas  de  pronostico.  Popu- 
larmente  conocida  como  metodologia  de  Box-Jenkins  (BJ),  pero  tecnicamente  conocida  como 
metodologia  ARIMA,  el  interes  de  estos  metodos  de  pronosticos  no  esta  en  la  construccion  de 
modelos  uniecuacionales  o  de  ecuaciones  simultaneas,  sino  en  el  analisis  de  las  propiedades  pro- 
babilisticas,  o  estocasticas,  de  las  series  de  tiempo  economicas  por  si  mismas  segun  la  filosofia 


2  Hay  una  exposition  relativamente  sencilla  de  estos  metodos  en  Spyros  Makridakis,  Steven  C.  Wheelwright 
y  Rob  J.  Hyndman,  Forecasting  Methods  and  Applications,  3a.  ed.,  John  Wiley  &  Sons,  Nueva  York,  1998. 

3  Para  conocer  un  tratamiento  didactico  acerca  del  uso  de  modelos  de  ecuaciones  simultaneas  en  pronos¬ 
ticos,  vease  Robert  S.  Pindyck  y  Daniel  L.  Rubinfeld,  Econometric  Models  &  Economic  Forecasts,  McGraw-Hill, 
4a.  ed.,  Nueva  York,  1 998,  parte  III. 

4  Robert  E.  Lucas,  "Econometric  Policy  Evaluation:  A  Critique",  en  Carnegie-Rochester  Conference  Series,  The 
Phillips  Curve,  North-Holland,  Amsterdam,  1976,  pp.  19-46.  Este  artfculo,  entre  otros,  hizo  posible  que  Lucas 
obtuviera  el  Premio  Nobel  de  Economla. 
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de  que  los  datos  hablen  por  si  mismos.  A  diferencia  de  los  modelos  de  regresion,  en  los  cuales  Y, 
se  explica  por  las  k  regresoras X\, X2,  A3, . . . ,  At,  en  los  modelos  de  series  de  tiempo  del  tipo  BJ, 
Y,  se  explica  por  valores  pasados  o  rezagados  de  si  misma  y  por  los  terminos  de  error  estocasti- 
cos.  Por  esta  razon,  los  modelos  AR1MA  reciben  algunas  veces  el  nombre  de  modelos  ateoricos 
— porque  no  se  derivan  de  teoria  economica  alguna — ,  y  las  teorias  economicas  a  menudo  son  la 
base  de  los  modelos  de  ecuaciones  simultaneas. 

A  proposito,  observe  que  en  este  capitulo  la  atencion  se  centra  en  los  modelos  ARIMA  univa- 
riados,  es  decir,  en  los  modelos  AR1MA  que  pertenecen  a  una  sola  serie  de  tiempo.  No  obstante, 
el  analisis  puede  extenderse  a  modelos  ARIMA  multivariados. 

Modelos  VAR 

A  primera  vista,  la  metodologia  VAR  se  asemeja  a  los  modelos  de  ecuaciones  simultaneas,  pues 
considera  diversas  variables  endogenas  de  manera  conjunta.  Pero  cada  variable  endogena  se  ex¬ 
plica  por  sus  valores  rezagados,  o  pasados,  y  por  los  valores  rezagados  de  todas  las  demas  varia¬ 
bles  endogenas  en  el  modelo;  usualmente  no  hay  variables  exogenas  en  el  modelo. 

En  lo  restante  de  este  capitulo  analizaremos  las  bases  de  los  enfoques  de  Box-Jenkins  y  VAR 
para  los  pronosticos  economicos.  El  analisis  es  elemental  y  heurlstico.  Se  aconseja  al  lector  que 
desee  continuar  el  estudio  de  este  tema  consultar  las  referencias.5 


22.2  Creacion  de  modelos  AR,  PM  y  ARIMA  para  series  de  tiempo 


Para  presentar  diversas  ideas,  antiguas  y  nuevas,  aqui  trabajaremos  con  la  serie  de  tiempo  del 
P1B  de  Estados  Unidos  de  la  seccion  21.1  (consulte  los  datos  reales  en  el  sitio  Web  del  libro).  La 
grafica  de  dicha  serie  de  tiempo  ya  se  ilustro  en  las  figuras  21.1  (logaritmo  del  P1B  no  diferen- 
ciado)  y  21.9  (LP1B  en  primeras  diferencias);  recuerde  que  el  LP1B  en  su  forma  de  nivel  es  no 
estacionario,  pero  en  su  forma  de  (primeras)  diferencias  si  lo  es. 

Si  una  serie  de  tiempo  es  estacionaria,  se  puede  modelar  en  diversas  formas. 


Proceso  autorregresivo  (AR) 

Sea  Y,  el  logaritmo  del  P1B  en  el  periodo  t.  Si  se  modela  Y,  como 


{Yt-8)  =  ax{Yt_l-8)  +  ut  (22.2.1) 

donde  S  es  la  media  de  Yy  u,  es  un  termino  de  error  aleatorio  no  correlacionado  con  media  cero 
y  varianza  constante  a1  (es  decir,  ruido  bianco),  se  dice  que  Y,  sigue  un  proceso  estocastico  au¬ 
torregresivo  de  primer  orden,  o  AR(1),  del  cual  ya  hablamos  en  el  capitulo  12.  Aqui  el  valor  de 
Y  en  el  tiempo  t  depende  de  su  valor  en  el  periodo  anterior  y  de  un  termino  aleatorio;  los  valores 
de  Y  estan  expresados  como  desviaciones  de  su  valor  medio.  En  otras  palabras,  este  modelo  dice 
que  el  valor  de  pronostico  de  Y  en  el  periodo  t  es  simplemente  alguna  proporcion  (=  a  1)  de  su 
valor  en  el  periodo  {t  —  1)  mas  un  “choque”  o  perturbation  aleatoria  en  el  tiempo  /;  de  nuevo,  los 
valores  de  Y  estan  expresados  alrededor  del  valor  de  su  media. 

Pero  si  consideramos  este  modelo, 


( Yt  -5)  =  «!(})_!  -  8)  +  a3(y,_ 2  -8)  +  ut  (22.2.2) 


5  Vease  Pindyck  y  Rubinfeld,  op.  cit.,  parte  3;  Alan  Pankratz,  Forecasting  with  Dynamic  Regression  Models,  John 
Wiley  &  Sons,  Nueva  York,  1 991  (libro  con  aplicaciones);  y  Andrew  Harvey,  The  Econometric  Analysis  of  Time 
Series,  The  MIT  Press,  2a.  ed.,  Cambridge,  Massachusetts,  1990  (libro  relativamente  avanzado).  Un  analisis 
completo  pero  facil  de  entender  se  encuentra  en  Terence  C.  Mills,  Time  Series  Techniques  for  Economists, 
Cambridge  University  Press,  Nueva  York,  1990. 
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decimos  que  Y,  sigue  un  proceso  autorregresivo  de  segundo  orden  o  AR(2).  Es  decir,  el 
valor  de  Y  en  el  tiempo  t  depende  de  sus  valores  en  los  dos  periodos  anteriores,  los  valores  de  Y 
expresados  alrededor  del  valor  de  su  media  <5. 

En  general,  tenemos 

(7,  -S)  =  «i (y,_!  -  S)  +  a2(7,_ 2  -  S)  +  ■  ■  ■  +  ap(Yt-p  -  8)  +  u,  (22.2.3) 

en  cuyo  caso  7,  es  un  proceso  autorregresivo  de  orden  p,  o  AR(p). 

Observe  que  en  todos  los  modelos  anteriores  solo  se  consideran  los  valores  actuales  y  anterio¬ 
res  de  7;  no  hay  otras  regresoras.  En  este  sentido,  decimos  que  “los  datos  hablan  por  si  mismos”. 
Son  una  clase  de  modelos  de  forma  reducida  a  los  cuales  hicimos  referencia  en  el  analisis  de  los 
modelos  de  ecuaciones  simultaneas. 


Proceso  de  medias  moviles  (MA) 

El  proceso  AR  recien  expuesto  no  es  el  unico  mecanismo  que  pudo  generar  a  7.  Suponga  que 
hacemos  un  modelo  de  7  de  la  siguiente  manera: 

7f  =  /x  +  Po  ut  +  P\ut~\  (22.2.4) 

donde  /x  es  una  constante  y  u,  al  igual  que  antes,  es  el  termino  de  error  estocastico  de  ruido 
bianco.  Aqui,  7 en  el  periodo  t  es  igual  a  una  constante  mas  un  promedio  movil  de  los  terminos  de 
error  presente  y  pasado.  Asi,  en  este  caso  decimos  que  7  sigue  un  proceso  de  promedios  moviles 
de  primer  orden,  o  MA(1). 

Pero  si  7  sigue  la  expresion 

7/  =  /x  +  Pqu,  +  P\ut-\  +  yd2Mf-2  (22.2.5) 

es  un  proceso  MA(2).  En  forma  mas  general, 

7f  =  /X  +  Pq  Ut  +  P\Ut-\  +  P2U,-2  +  •  •  ■  +  PqUf—q  ( 22.2.6 ) 

es  un  proceso  MA(<jr).  En  resumen,  un  proceso  de  promedios  moviles  es  tan  solo  una  combina- 
cion  lineal  de  terminos  de  error  de  ruido  bianco. 


Proceso  autorregresivo  y  de  promedios  moviles  (ARMA) 

Desde  luego,  es  muy  probable  que  7  tenga  caracteristicas  de  AR  y  de  MA  a  la  vez,  y,  por  consi- 
guiente,  sea  ARMA.  Asi,  7,  sigue  un  proceso  ARMA(1, 1)  si  se  escribe  como 

7f  =  6  +  a\ 7r_i  +  Pou,  +  P\ut-\  (22.2.7) 

porque  hay  un  termino  autorregresivo  y  uno  de  promedios  moviles.  En  (22.2.7),  6  representa  un 
termino  constante. 

En  general,  en  un  proceso  ARMA(/),  q),  habra  p  terminos  autorregresivos  y  q  terminos  de 
promedios  moviles. 


Proceso  autorregresivo  integrado  de  promedios  moviles  (ARIMA) 

Los  modelos  de  series  de  tiempo  analizados  se  basan  en  el  supuesto  de  que  las  series  de  tiempo 
consideradas  son  (debilmente)  estacionarias  en  el  sentido  definido  en  el  capitulo  21.  En  pocas 
palabras,  la  media  y  la  varianza  de  una  serie  de  tiempo  debilmente  estacionaria  son  constantes  y 
su  covarianza  es  invariante  en  el  tiempo.  Pero  sabemos  que  muchas  series  de  tiempo  economicas 
son  no  estacionarias,  es  decir,  son  integradas;  por  ejemplo,  las  series  de  tiempo  economicas  en  la 
tabla  21.1  son  integradas. 

Sin  embargo,  vimos  tambien  en  el  capitulo  21  que  si  una  serie  de  tiempo  es  integrada  de  orden 
1  [es  decir,  si  es  7(1)],  sus  primeras  diferencias  son  7(0),  es  decir,  estacionarias.  En  forma  similar, 
si  una  serie  de  tiempo  es  7(2),  sus  segundas  diferencias  son  7(0).  En  general,  si  una  serie  de  tiempo 
es  1(d),  despues  de  diferenciarla  d  veces  se  obtiene  una  serie  7(0). 
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Por  consiguiente,  si  debemos  diferenciar  una  serie  de  tiempo  d  veces  para  hacerla  estacionaria 
y  luego  aplicarle  el  modelo  ARM  A (/;,</).  decimos  que  la  serie  de  tiempo  original  es  ARIMA(p, 
d,  q),  es  decir,  es  una  serie  de  tiempo  autorregresiva  integrada  de  promedios  moviles,  donde 
p  denota  el  numero  de  terminos  autorregresivos,  d  el  numero  de  veces  que  la  serie  debe  diferen- 
ciarse  para  hacerse  estacionaria  y  q  el  numero  de  terminos  de  promedios  moviles.  Asi,  una  serie 
de  tiempo  ARIMA(2,  1,  2)  tiene  que  diferenciarse  una  vez  (d  —  1)  antes  de  que  se  haga  esta¬ 
cionaria,  y  la  serie  de  tiempo  estacionaria  (en  primeras  diferencias)  puede  modelarse  como  un 
proceso  ARMA(2,  2),  es  decir,  tiene  dos  terminos  AR  y  dos  terminos  MA.  Desde  luego,  si  d  =  0 
(es  decir,  si  para  empezar  la  serie  es  estacionaria),  ARlMA(p,  d  —0,q)  —  ARMA(/;,  q).  Observe 
que  un  proceso  ARIMA(/;,  0,  0)  significa  un  proceso  estacionario  AR(p)  puro;  un  ARIMA  (0, 
0,  q )  significa  un  proceso  estacionario  MA(g)  puro.  Con  los  valores  de  p,  d  y  q  sabemos  de  que 
proceso  se  esta  haciendo  el  modelo. 

El  punto  importante  es  que,  para  utilizar  la  metodologia  Box-Jenkins,  debemos  tener  una  serie 
de  tiempo  estacionaria  o  una  serie  de  tiempo  que  sea  estacionaria  despues  de  una  o  mas  diferen- 
ciaciones.  La  razon  para  suponer  estacionariedad  se  explica  de  la  siguiente  manera: 

El  objetivo  de  BJ  [Box-Jenkins]  es  identificar  y  estimar  un  modelo  estadlstico  que  se  interprete  como 
generador  de  los  datos  muestrales.  Entonces,  si  se  va  a  pronosticar  con  este  modelo  estimado,  debe 
suponerse  que  sus  caracterlsticas  son  constantes  a  traves  del  tiempo  y,  en  particular,  en  periodos 
futuros.  Asi,  la  sencilla  razon  para  requerir  datos  estacionarios  es  que  todo  modelo  que  se  infiera  a 
partir  de  estos  datos  pueda  interpretarse  como  estacionario  o  estable  en  si  mismo,  y  proporcione,  por 
consiguiente,  una  base  valida  para  pronosticar.6 


22.3  Metodologia  de  Box-Jenkins  (BJ) 


La  pregunta  del  millon  de  dolares  es  obvia:  al  ver  una  serie  de  tiempo,  como  la  serie  del  PIB  de 
Estados  Unidos  en  la  figura  21.1,  ^como  sabemos  si  sigue  un  proceso  AR  puro  (de  ser  asi,  cual 
es  el  valor  de  p),  un  proceso  MA  puro  (de  ser  asi,  cual  es  el  valor  de  q),  un  proceso  ARMA  (de 
ser  asi,  cuales  son  los  valores  de  p  y  q)  o  un  proceso  ARIMA,  en  cuyo  caso  se  deben  conocer  los 
valores  de/?,  d y  ql  La  metodologia  BJ  resulta  util  para  responder  la  pregunta  anterior.  El  metodo 
considera  cuatro  pasos: 

Paso  1.  Identification.  Es  decir,  encontrar  los  valores  apropiados  de  p,  d  y  q.  En  seguida 
veremos  la  forma  como  el  correlograma  y  el  correlograma  parcial  ayudan  en  esta  labor. 

Paso  2.  Estimacion.  Tras  identificar  los  valores  apropiados  de  p  y  q,  la  siguiente  etapa  es 
estimar  los  parametros  de  los  terminos  autorregresivos  y  de  promedios  moviles  incluidos  en 
el  modelo.  Algunas  veces,  este  calculo  se  efectua  mediante  minimos  cuadrados  simples,  pero 
otras  hay  que  recurrir  a  metodos  de  estimacion  no  lineal  (en  parametros).  Como  esta  labor  se 
lleva  a  cabo  ahora  a  traves  de  rutinas  en  diversos  paquetes  estadisticos,  en  la  practica  no  es 
preciso  preocuparse  por  los  desarrollos  matematicos  de  la  estimacion;  el  estudiante  intere- 
sado  en  el  tema  puede  consultar  las  referencias. 

Paso  3.  Examen  de  diagnostico.  Despues  de  seleccionar  un  modelo  ARIMA  particular  y 
de  estimar  sus  parametros,  tratamos  de  ver  si  el  modelo  seleccionado  se  ajusta  a  los  datos  en 
forma  razonablemente  buena,  pues  es  posible  que  exista  otro  modelo  ARIMA  que  tambien 
lo  haga.  Es  por  esto  que  el  diseno  de  modelos  ARIMA  de  Box-Jenkins  es  un  arte  mas  que 
una  ciencia;  se  requiere  gran  habilidad  para  seleccionar  el  modelo  ARIMA  correcto.  Una 
simple  prueba  del  modelo  seleccionado  es  ver  si  los  residuales  estimados  a  partir  de  este 
modelo  son  de  ruido  bianco;  si  lo  son,  aceptamos  el  ajuste  particular;  si  no  lo  son,  debemos 
empezar  de  nuevo.  Por  tanto,  la  metodologia  BJ  es  un  proceso  iterativo  (figura  22.1). 


6  Michael  Pokorny,  An  Introduction  to  Econometrics,  Basil  Blackwell,  Nueva  York,  1987,  p.  343. 
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FIGURA  22.1 

Metodologia  de 
Box-Jenkins. 


1 .  Identiflcacion  del  modelo 
(seleccion  tentativa  de  p,  d,  q) 


2.  Estimacion  de  parametros 
del  metodo  elegido 


Paso  4.  Pronostico.  Una  razon  de  la  popularidad  del  proceso  de  construccion  de  modelos 
ARIMA  es  su  exito  en  el  pronostico.  En  muchos  casos,  los  pronosticos  obtenidos  por  este 
metodo  son  mas  confiables  que  los  obtenidos  de  modelos  econometricos  tradicionales,  en 
particular  en  el  caso  de  pronosticos  de  corto  plazo.  Por  supuesto,  cada  caso  debe  verificarse. 

Luego  de  esta  exposicion  general,  examinaremos  los  cuatro  pasos  con  cierto  detalle.  Durante 
el  analisis  utilizaremos  los  datos  del  P1B  de  la  seccion  21.1  para  ilustrar  los  diversos  puntos. 


22.4  Identiflcacion 


Las  herramientas  principals  en  la  identiflcacion  son  la  funcion  de  autocorrelacion  (FAC),  la 
funcion  de  autocorrelacion  parcial  (FACP)  y  los  correlogramas  resultantes,  que  son  simple- 
mente  los  graficos  de  FAC  y  de  FACP  respecto  de  la  longitud  del  rezago. 

En  el  capitulo  anterior  definimos  la  FAC  pk  (poblacional)  y  la  FAC  pk  (muestral).  El  concepto 
de  autocorrelacion  parcial  es  analogo  al  concepto  de  coeficiente  de  regresion  parcial.  En  el  mo¬ 
delo  de  regresion  multiple  con  k  variables,  el  A'-esimo  coeficiente  de  regresion  (J>k  mide  la  tasa  de 
cambio  en  el  valor  medio  de  la  variable  regresada  ante  un  cambio  unitario  en  la  A-esima  regresora 
Xk,  para  mantener  constante  la  influencia  de  todas  las  demas  regresoras. 

En  forma  similar,  la  autocorrelacion  parcial  pkk  mide  la  correlacion  entre  observaciones 
(series  de  tiempo)  separadas  k  periodos  y  mantiene  constantes  las  correlaciones  en  los  rezagos 
intermedios  (es  decir,  rezagos  menores  de  k).  En  otras  palabras,  la  autocorrelacion  parcial  es  la 
correlacion  entre  Yt  y  Yt_k  despues  de  eliminar  el  efecto  de  las  Y  intermedias.7  En  la  seccion  7. 1 1 
presentamos  el  concepto  de  correlacion  parcial  en  el  contexto  de  regresion  y  vimos  su  relacion 
con  las  correlaciones  simples.  Tales  correlaciones  parciales  se  calculan  ahora  mediante  rutinas  en 
la  mayoria  de  los  paquetes  estadisticos. 

En  la  figura  22.2  presentamos  el  correlograma  y  el  correlograma  parcial  de  la  serie  LPIB.  En 
esta  figura  sobresalen  dos  hechos:  primero,  la  FAC  decrece  muy  lentamente;  como  se  ve  en  la 
figura  2 1 .8,  la  FAC  hasta  el  rezago  23  es  estadisticamente  diferente  de  cero  en  un  nivel  individual, 
pues  todas  estan  fuera  de  los  limites  a  95%  de  confianza.  Segundo,  despues  del  primer  rezago,  la 
FACP  decrece  en  forma  considerable  y  todas  las  FACP,  despues  del  primer  rezago,  son  estadisti¬ 
camente  no  significativas,  salvo  quiza  por  el  rezago  13. 


7  En  los  datos  de  series  de  tiempo,  una  gran  proporcion  de  la  correlacion  entre  Yt  y  b-t  puede  deberse  a  sus 
correlaciones  con  los  rezagos  intermedios  Yt- 1,  Yt_2,  •  -  • ,  b-t+i.  La  correlacion  parcial  p^elimina  la  influencia 
de  estas  variables  intermedias. 
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FIGURA  22.2 

a)  Correlograma  y 

b)  correlograma  parcial 
de  LPIB,  Estados  Unidos, 
1-1947  a  IV-2007. 


Formula  de  Bartlett  para  las  bandas  de  confianza  MA(g)  a  95%. 

a) 


Bandas  de  confianza  a  95%  [ee  =  1/ralz  cuadrada  de  (n)]. 

b) 


Como  la  serie  de  tiempo  LPIB  de  Estados  Unidos  es  no  estacionaria,  debemos  convertirla  en 
estacionaria  antes  de  aplicar  la  metodologia  de  Box-Jenkins.  En  la  figura  21.9  graficamos  la  serie 
de  primeras  diferencias  del  LPIB.  En  contraste  con  la  figura  21.1,  no  se  observa  ninguna  tenden- 
cia  en  esta  serie,  lo  que  sugiere  que  quiza  la  serie  de  tiempo  del  LPIB  en  primeras  diferencias  es 
estacionaria.8  Una  aplicacion  formal  de  la  prueba  de  raiz  unitaria  de  Dickey-Fuller  muestra 
que  asi  sucede,  en  efecto.  Lo  anterior  tambien  se  visualiza  mediante  los  correlogramas  FAC  y 
FACP  estimados  en  los  paneles  a )  y  b)  de  la  figura  22.3.  Ahora  tenemos  un  patron  muy  diferente 
de  FAC  y  de  FACP.  Las  FACs  en  los  rezagos  1,  2  y  5  parecen  estadisticamente  diferentes  de  cero; 
recuerde,  del  capitulo  21,  que  los  limites  de  confianza  aproximados  a  95%  para  pk  son  —0.2089 
y  +0.2089.  ( Nota :  Como  analizamos  en  el  capitulo  21,  estos  limites  de  confianza  son  asintoticos 


8  Es  diffcil  decir  si  la  varianza  de  esta  serie  es  estacionaria,  en  especial  alrededor  de  1 979-1 980.  El  embargo 
petrolero  de  1979  y  un  cambio  significativo  en  la  polftica  monetaria  del  Banco  de  la  Reserva  Federal  en  el 
mismo  ano  pueden  tener  algo  que  ver  con  esta  dificultad. 
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FIGURA  22.3 

a)  Correlograma  y 

b)  correlograma  parcial  de 
las  primeras  diferencias 
de  LPIB,  Estados  Unidos, 
1-1947  a  IV-2007. 


Formula  de  Bartlett  para  las  bandas  de  confianza  MA(g)  a  95%. 

a) 


Bandas  de  confianza  a  95%  [ee  =  1/rafz  cuadrada  de  (n)\. 


b) 


y,  por  tanto,  se  consideran  aproximados.)  Pero,  en  todos  los  demas  rezagos,  no  son  estadistica- 
mente  diferentes  de  cero.  Para  las  autocorrelaciones  parciales,  solo  los  rezagos  1  y  12  parecen 
estadlsticamente  diferentes  de  cero. 

Ahora,  ^como  permiten  los  correlogramas  de  la  figura  22.3  encontrar  el  patron  ARMA  de  la 
serie  de  tiempo  del  P1B?  ( Nota :  Solo  consideraremos  la  serie  del  P1B  en  primeras  diferencias 
por  ser  estacionaria.)  Una  forma  de  lograrlo  es  considerar  la  FAC  y  la  FACP,  y  los  correlogramas 
asociados  de  un  numero  seleccionado  de  procesos  ARMA,  como  AR(  1),  AR(2),  MA(  1),  MA(2), 
ARMA(1,1),  ARIMA(2,2),  y  asi  sucesivamente.  Como  cada  proceso  estocastico  presenta  pa- 
trones  habituales  de  FAC  y  de  FACP,  si  la  serie  de  tiempo  en  estudio  se  ajusta  a  alguno  de  estos 
patrones,  la  podemos  identificar  con  tal  proceso.  Desde  luego,  sera  necesario  aplicar  pruebas  de 
diagnostico  para  determinar  si  el  modelo  seleccionado  ARMA  es  razonablemente  preciso. 

El  estudio  de  las  propiedades  de  los  diversos  procesos  estandar  ARIMA  consumiria  mucho  es- 
pacio.  En  su  lugar,  ofrecemos  lineamientos  generales  (tabla  22.1);  en  las  referencias  hay  detalles 
de  los  diversos  procesos  estocasticos. 
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TABLA  22.1 

Patrones  teoricos  de 

Tipo  de  modelo 

Patron  tfpico  de  FAC 

Patron  tfpico  de  FACP 

FAC  y  FACP 

AR(p) 

Disminuye  exponencialmente  0 
con  un  patron  de  onda  sinusoide 
achatada  0  ambos. 

Picos  significativos  en  los 
rezagos  q 

MA(q) 

Picos  significativos  en  los  rezagos  q 

Decrece  exponencialmente 

ARMA(p,  q ) 

Decrece  exponencialmente 

Decrece  exponencialmente 

Nota:  Los  terminos  decrecimiento  exponencial  y  decrecimiento  geometrico  significan  lo  mismo  (recuerde  el  analisis  sobre  el  rezago 
distribuido  de  Koyck). 


FIGURA  22.4  FAC  y  FACP  de  procesos  estocasticos  seleccionados:  a)  AR(2):  a \  =  0.5,  a.2  =  0.3;  b )  MA(2):  P\  =  0.5,  p 2  =  0.3; 
c)ARMA(l,l):ai  =  0.5,  Pi  =  0.5. 


Pk 


Pkk 


b) 


Pk 


Pkk 


0 


C ) 


Observe  que  las  FAC  y  las  FACP  de  los  procesos  AR (p)  y  MA(g)  tienen  patrones  opuestos;  en 
el  caso  AR(p),  la  FAC  decrece  geometrica  o  exponencialmente,  pero  la  FACP  se  corta  despues  de 
cierto  numero  de  rezagos,  mientras  que  sucede  lo  opuesto  a  un  proceso  MA(g). 
Geometricamente,  estos  patrones  se  muestran  en  la  figura  22.4. 

Advertencia 

Como  en  la  practica  no  se  observan  las  FAC  y  FACP  teoricas  y  se  depende,  por  tanto,  de  sus 
aproximaciones  muestrales,  las  FAC  y  FACP  estimadas  no  concordaran  exactamente  con  sus 
contrapartes  teoricas.  Buscamos  una  similitud  entre  las  FAC  y  las  FACP  teoricas  y  muestrales  de 
manera  que  senalen  la  direccion  correcta  en  la  construccion  de  los  modelos  ARIMA.  Es  por  esto 
que  la  elaboracion  de  modelos  ARIMA  requiere  gran  habilidad  lo  cual,  desde  luego,  se  obtiene 
con  la  practica. 

Identification  ARIMA  del  PIB  de  Estados  Unidos 

A1  considerar  de  nuevo  el  correlograma  y  el  correlograma  parcial  de  LPIB  estacionario  (despues 
de  la  primera  diferenciacion)  de  Estados  Unidos  de  1-1947  a  IV-2007  de  la  figura  22.3,  (',quc 
observamos? 

Recordemos  que  la  FAC  y  la  FACP  son  cantidades  muestrales,  y  no  tenemos  un  patron  decente 
como  los  propuestos  en  la  tabla  22. 1 .  Las  autocorrelaciones  (panel  a)  decrecen  en  los  primeros 
dos  rezagos  y  luego,  con  excepcion  del  rezago  5,  los  restantes  no  son  estadisticamente  diferentes 
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de  cero  (el  area  gris  en  las  figuras  da  los  llmites  de  confianza  aproximados  a  95%).  Las  autoco- 
rrelaciones  parciales  (panel  b)  con  picos  en  los  rezagos  1  y  12  parecen  estadlsticamente  signi- 
ficativas,  pero  el  resto  no;  si  el  coeficiente  de  correlation  parcial  fuera  significativo  solamente 
en  el  rezago  1,  podrlamos  haberlo  identificado  como  un  modelo  AR(1).  Supongamos  por  tanto 
que  el  proceso  que  genero  la  serie  LP1B  (en  primeras  diferencias)  es  un  proceso  MA(2).  Tenga 
en  cuenta  que,  a  menos  que  la  FAC  y  la  FACP  no  esten  bien  definidas,  sera  dificil  elegir  un  mo¬ 
delo  sin  ensayo  y  error.  Se  invita  al  lector  a  probar  otros  modelos  AR1MA  con  la  serie  LPIB  en 
primeras  diferencias. 


22.5  Estimacion  del  modelo  ARIMA 


Sea  Y*  las  primeras  diferencias  del  logaritmo  del  PIB  de  Estados  Unidos.  Entonces,  el  modelo 
MA  identificado  tentativamente  es 


Y*  —  ii  +  Piitt-i  +  P2U1-2 

Con  MINITAB  obtuvimos  las  siguientes  estimaciones: 

Y*  =  0.00822  +  0.2918Mr_!  +  0.2024m,_2 
ee  =  (0.00088)  (0.0633)  (0.0634) 

t  —  (9.32)  (4.61)  (3.20) 

R2  =  0.1217  d=  1.9705 


(22.5.1) 


(22.5.2) 


Dejamos  como  ejercicio  al  lector  estimar  otros  modelos  ARIMA  para  la  serie  LPIB  en  primeras 
diferencias. 


22.6  Verificacion  de  diagnostico 


(',C6irio  sabemos  que  el  modelo  en  (22.5.2)  es  un  ajuste  razonable  a  los  datos?  Un  diagnostico 
simple  es  obtener  los  residuos  de  (22.5.2)  y  obtener  la  FAC  y  la  FACP  de  estos  residuos,  por 
ejemplo,  hasta  el  rezago  25.  Las  FAC  y  FACP  estimadas  se  muestran  en  la  figura  22.5.  Como 
vemos  en  esta  figura,  ninguna  de  las  autocorrelaciones  y  de  las  autocorrelaciones  parciales  es 
estadlsticamente  significativa  de  manera  individual.  Tampoco  lo  es  la  suma  de  las  25  autocorrela¬ 
ciones  elevadas  al  cuadrado,  como  indican  los  estadisticos  Q  de  Box-Pierce  y  LB  de  Ljung-Box 
(vease  el  capitulo  21).  En  otras  palabras,  los  correlogramas  de  la  autocorrelation  y  de  la  auto¬ 
correlation  parcial  dan  la  impresion  de  que  los  residuos  estimados  de  (22.5.2)  son  puramente 
aleatorios.  Por  tanto,  quiza  no  sea  necesario  buscar  otro  modelo  ARIMA. 


22.7  Pronostico 


Recuerde  que  los  datos  del  PIB  son  para  el  periodo  1-1947  a  IV-2007.  Suponga,  con  base  en  el 
modelo  (22.5.2),  que  deseamos  pronosticar  el  LPIB  para  el  primero  de  los  cuatro  trimestres  de 
2008.  Pero,  en  (22.5.2),  la  variable  dependiente  es  el  cambio  en  el  LPIB  en  el  trimestre  anterior. 
Por  consiguiente,  si  utilizamos  (22.5.2),  lo  que  obtenemos  son  los  pronosticos  de  los  cambios  en 
el  LPIB  entre  el  primer  trimestre  de  2008  y  el  cuarto  trimestre  de  2007,  el  segundo  trimestre  de 
2008  y  el  primer  trimestre  de  2008,  etcetera. 

Para  obtener  el  pronostico  de  nivel  del  LPIB  en  lugar  de  sus  cambios,  podemos  “deshacer” 
la  transformation  de  primeras  diferencias  con  que  obtuvimos  los  cambios.  (Mas  tecnicamente, 
integmmos  la  serie  de  primeras  diferencias.)  Asi,  para  obtener  el  valor  de  pronostico  del  LPIB 
(no  de  APIB)  para  1-2008,  reescribimos  el  modelo  (22.5.1)  como 


72008-1  —  72007-IV  =  M  +  /ll«2007-IV+  /I2M2007-III  +  «2008-I 


(22.7.1) 
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FIGURA  22.5 

a)  Correlograma  y 

b)  correlograma  parcial  de 
los  residuos  del  modelo 
MA(2)  para  las  primeras 
diferencias  de  LPIB,  Es- 
tados  Unidos,  1947-1  a 
2007-IV 


Formula  de  Bartlett  para  las  bandas  de  confianza  MA(g)  al  95%. 

a) 


b) 


Es  decir, 

J2008-I  =  M  +  PlU2007-W  +  /*2«2007-III  +  «2008-I  +  ^2007-IV  (22.7.2) 

Los  valores  de  \x,  fi\  y  (h  ya  se  conocen  de  la  regresion  estimada  (22.5.2).  Se  supone  que  el  valor 
de  M2008-1  es  cero  (/,por  que?).  Por  consiguiente,  obtenemos  facilmente  el  valor  de  pronostico  de 
72008-1-  La  estimacion  numerica  de  este  valor  de  pronostico  es:9 

72008-1  =  0.00822  +  (0.2918)m2007-iv  +  (0.2024)(m2oo7-iii)  +  Yim-iv 

=  0.00822  +  (0.2918)(0. 00853)  +  (0.2024)(-0.00399)  +  9.3653 

=  9.3741(aprox.) 


9Aunque  los  paquetes  de  software  comunesy  corrientes  hacen  este  calculo  habitualmente,  presentamos  los 
calculos  detallados  para  ilustrar  el  procedimiento. 
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Asi,  el  valor  de  pronostico  de  LP1B  para  1-2008  es  de  alrededor  de  9.3741,  que  equivale  a  unos 
1 1  779  millones  de  dolares  (de  2000).  A  proposito,  el  valor  observado  del  PIB  real  para  1-2008 
fue  de  1 1  693.09  millones  de  dolares;  el  error  de  pronostico  fue  una  sobreestimacion  de  86  000 
millones  de  dolares. 


22.8  Otros  aspectos  de  la  metodologfa  BJ 


En  los  parrafos  anteriores  presentamos  solo  una  introduction  general  al  diseno  de  modelos  BJ. 
Hay  muchos  aspectos  de  esta  metodologla  no  considerados  por  falta  de  espacio,  como  la  estacio- 
nalidad.  Muchas  series  de  tiempo  presentan  un  comportamiento  estacional,  como  las  ventas  de 
tiendas  departamentales  en  dlas  festivos,  el  consumo  estacional  de  helado,  los  viajes  durante  dias 
festivos  nacionales,  etc.  Si,  por  ejemplo,  disponemos  de  la  information  trimestral  de  ventas  de  las 
tiendas  departamentales,  estas  cifras  mostraran  picos  en  el  cuarto  trimestre.  En  tales  situaciones, 
es  posible  eliminar  la  influencia  estacional  al  tomar  diferencias  trimestrales  de  orden  cuatro  de 
las  cifras  de  ventas  y  luego  decidir  que  clase  de  modelo  ARIMA  ajustar. 

Analizamos  una  serie  de  tiempo  a  la  vez;  sin  embargo,  nada  impide  extender  la  metodologia 
BJ  al  estudio  simultaneo  de  dos  o  mas  series  de  tiempo.  Una  revision  de  tal  tema  se  saldria  del 
alcance  de  este  libro.  El  lector  interesado  puede  consultar  las  referencias.10  No  obstante,  en  la 
siguiente  section  analizaremos  este  tema  en  el  contexto  de  lo  que  se  conoce  como  vectores  au- 
torregresivos. 


22.9  Vectores  autorregresivos  (VAR) 


De  los  capitulos  18  a  20  consideramos  los  modelos  de  ecuaciones  simultaneas  o  estructurales.  En 
esos  modelos,  algunas  variables  se  tratan  como  endogenas  y  otras  como  exogenas  o  predetermi- 
nadas  (exogenas  y  endogenas  rezagadas).  Antes  de  estimar  tales  modelos  debemos  estar  seguros 
de  que  las  ecuaciones  en  el  sistema  esten  identificadas  (en  forma  exacta  o  sobreidentificadas). 
Esta  identification  a  menudo  se  logra  si  suponemos  que  algunas  variables  predeterminadas  solo 
estan  presentes  en  ciertas  ecuaciones.  Esta  decision  a  menudo  es  subjetiva  y  ha  recibido  fuertes 
crlticas  de  Christopher  Sims.11 

De  acuerdo  con  Sims,  si  hay  verdadera  simultaneidad  entre  un  conjunto  de  variables,  todas 
deben  tratarse  en  igualdad  de  condiciones:  no  debe  haber  ninguna  distincion  a  priori  entre  varia¬ 
bles  endogenas  y  exogenas.  Es  en  este  contexto  que  Sims  desarrollo  su  modelo  VAR. 

Las  semillas  de  este  modelo  se  habian  sembrado  ya  en  la  prueba  de  causalidad  de  Granger, 
estudiada  en  el  capltulo  17.  En  las  ecuaciones  (17.14.1)  y  (17.14.2),  que  explican  el  LP1B  actual 
en  terminos  de  la  oferta  monetaria  rezagada  y  del  PIB  rezagado,  y  la  oferta  monetaria  actual  en 
terminos  de  la  oferta  monetaria  rezagada  y  del  LP1B  rezagado,  tratamos  esencialmente  al  PIB 
y  a  la  oferta  monetaria  como  un  par  de  variables  endogenas.  No  hay  variables  exogenas  en  este 
sistema. 

De  igual  forma,  en  el  ejemplo  17.13  analizamos  la  naturaleza  de  la  causalidad  entre  dinero 
y  tasa  de  interes  en  Canada.  En  la  ecuacion  del  dinero,  solo  aparecen  los  valores  rezagados  del 
dinero  y  de  la  tasa  de  interes;  asimismo,  en  la  ecuacion  de  la  tasa  de  interes,  unicamente  se  pre¬ 
sentan  los  valores  rezagados  de  la  tasa  de  interes  y  del  dinero. 

Estos  dos  ejemplos  son  ilustraciones  de  modelos  de  vectores  autorregresivos;  el  termino 
“autorregresivo”  se  refiere  a  la  aparicion  del  valor  rezagado  de  la  variable  dependiente  en  el  lado 
derecho,  y  el  termino  “vector”  se  atribuye  a  que  tratamos  con  un  vector  de  dos  (o  mas)  variables. 


10  Para  un  tratamiento  facil  de  entender  sobre  este  tema,  vease  Terence  C.  Mills,  op.  cit.,  parte  III. 

11  C.A.  Sims,  "Macroeconomics  and  Reality",  en  Econometrica,  vol.  48,  1980,  pp.  1-48. 
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Estimacion  de  VAR 

De  vuelta  con  el  ejemplo  del  dinero  y  la  tasa  de  interes  para  Canada,  vimos  que,  cuando  intro- 
dujimos  seis  rezagos  de  cada  variable  como  regresoras,  no  pudimos  rechazar  la  hipotesis  de  que 
existia  una  causalidad  bilateral  entre  el  dinero  ( M\ )  y  la  tasa  de  interes  R  (tasa  de  interes  corpora- 
tiva  a  90  dias).  Es  decir,  M\  afecta  a  R  y  esta  a  su  vez  influye  en  M\.  Este  tipo  de  situaciones  son 
ideales  para  aplicar  el  metodo  VAR. 

A  fin  de  explicar  como  se  estima  VAR,  continuaremos  con  el  ejemplo  anterior.  Por  el  mo¬ 
menta,  suponga  que  cada  ecuacion  contiene  k  valores  rezagados  de  M  (como  se  mide  M\)  y  R.  En 
este  caso,  estimamos  cada  una  de  las  siguientes  ecuaciones  mediante  MCO.12 

k  k 

Mi,  =  a  +  y-'  YjRt-j  +  11  it  (22.9.1) 

3= 1  3= 1 

k  k 

Rt  —  &'  +  y  ' djMt-j  +  y  '  YjRt-j  +  u2t  (22.9.2) 

j=l  j= l 

donde  las  u  son  los  terminos  de  error  estocastico,  llamados  impulsos,  innovaciones  o  choques 
en  el  lenguaje  de  VAR. 

Antes  de  calcular  (22.9.1)  y  (22.9.2)  tenemos  que  decidir  la  longitud  maxima  del  rezago  k. 
Esto  significa  una  cuestion  empirica.  Se  tienen  40  observaciones  en  total.  La  inclusion  de  mu- 
chos  terminos  rezagados  consumira  muchos  grados  de  libertad,  para  no  mencionar  la  posible 
aparicion  de  la  multicolinealidad.  Agregar  muy  pocos  rezagos  provoca  errores  de  especificacion. 
Una  forma  de  decidir  esta  cuestion  es  utilizar  criterios  como  el  de  Akaike  o  el  de  Schwarz,  para 
despues  elegir  el  modelo  que  proporcione  los  valores  mas  bajos  de  dichos  criterios.  En  definitiva, 
no  podemos  evitar  cierto  grado  de  ensayo  y  error. 

Con  el  objeto  de  ilustrar  el  procedimiento,  al  principio  utilizamos  cuatro  rezagos  ( k  —  4)  de 
cada  variable  y  mediante  el  programa  EViews  6  obtuvimos  las  estimaciones  de  los  parametros 
de  las  dos  ecuaciones  anteriores,  los  cuales  se  proporcionan  en  la  tabla  22.2.  Observe  que,  a 
pesar  de  que  la  muestra  abarca  desde  el  primer  trimestre  de  1979  hasta  el  cuarto  de  1988,  utili¬ 
zamos  la  muestra  para  el  periodo  comprendido  entre  el  primer  trimestre  de  1980  y  el  cuarto  de 
1987,  y  conservamos  las  ultimas  cuatro  observaciones  para  verificar  la  precision  del  pronostico 
del  VAR  ajustado. 

En  vista  de  que  las  ecuaciones  anteriores  son  regresiones  de  MCO,  el  resultado  de  la  regresion 
de  la  tabla  22.2  debe  interpretarse  de  la  manera  usual.  Por  supuesto,  con  diversos  rezagos  de  las 
mismas  variables,  cada  coeficiente  estimado  no  sera  estadisticamente  significativo,  quiza  debido 
a  la  multicolinealidad.  Pero  en  forma  colectiva,  quiza  sean  significativos  respecto  de  la  prueba 
F  estandar. 

Examinemos  los  resultados  mostrados  en  la  tabla  22.2.  Primero  consideramos  la  regresion 
M\.  En  forma  individual,  solo  M\  en  el  rezago  1 ,  y  R.  en  los  rezagos  1  y  2,  son  estadisticamente 
significativos.  Pero  el  valor  F  es  tan  alto  que  no  podemos  rechazar  la  hipotesis  de  que  de  manera 
colectiva  todos  los  terminos  de  rezago  son  estadisticamente  significativos.  Al  concentrar  la  aten- 
cion  sobre  la  regresion  de  la  tasa  de  interes,  observamos  que  los  cuatro  rezagos  de  los  terminos 
monetarios  son  estadisticamente  significativos  considerados  de  modo  individual  (en  un  nivel 
de  10%  o  superior),  en  tanto  que  solo  la  variable  de  la  tasa  de  interes  con  rezago  de  un  periodo 
resulta  significativa. 

Para  propositos  comparativos,  en  la  tabla  22.3  se  presentan  los  resultados  VAR  basados  en 
solo  dos  rezagos  de  cada  variable  endogena.  Aqui  apreciara  que,  en  la  regresion  sobre  el  dinero, 
la  variable  dinero  con  rezago  de  un  periodo  y  los  terminos  de  la  tasa  de  interes  rezagada  son 


12  Se  puede  utilizar  la  tecnica  SURE  ( seemingly  unrelated  regression)  para  estimar  las  dos  ecuaciones  de  ma¬ 
nera  simultanea.  No  obstante,  como  cada  regresion  contiene  el  mismo  numero  de  variables  endogenas 
rezagadas,  la  estimacion  por  MCO  de  cada  ecuacion  por  separado  suministra  estimaciones  identicas  (y  efi- 
cientes). 
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TAB  LA  22.2 

Estimaciones  de  vectores 
autorregresivos  con  base 
en  cuatro  rezagos 


Muestra  (ajustada):  primer  trimestre  de  1 980  a  cuarto  trimestre  de  1 987 

Observaciones  incluidas:  32  despues  de  ajustar  los  extremos 

Los  errores  estandar  estan  entre  parentesis  y  el  estadfstico  t  entre  corchetes 


M,  (-1)  1.076737  (0.20174)  [5.33733] 

Mi  (-2)  0.1  73433  (0.31 444)  [0.551  57] 

(-3)  -0.366465  (0.34687)  [-1.05648] 

(-4)  0.077602  (0.20789)  [0.37329] 


R 

0.001282  (0.00067)  [1.90083] 
-0.002140  (0.00105)  [-2.03584] 
0.002176  (0.00116)  [1.87699] 
-0.001479  (0.00069)  [-2.12855] 


R  (-1 )  -275.0293  (57.21  74)  [-4.80675] 

R  (-2)  227.1750  (95.3947)  [2.38142] 

R  (-3)  8.51 1 851  (96.91  76)  [0.08783] 

R  (-4)  -50.19926  (64.7554)  [-0.77521] 

C  2  41  3.827  (1  622.65)  [1 .48759] 

1.139310  (0.19127)  [5.95670] 
-0.309053  (0.31888)  [-0.96917] 
0.052361  (0.32397)  [0.16162] 
0.001076  (0.21646)  [0.00497] 
4.919000  (5.42416)  [0.90687] 

R2 

0.988154 

0.852890 

R2  ajustada 

0.984034 

0.801721 

Suma  de  cuadrados  residual 

4  820  241 . 

53.86233 

Ecuacion  del  ee 

457.7944 

1.530307 

Estadfstico  F 

239.8315 

16.66815 

Log  verosimilitud 

-236.1676 

-53.73716 

Akaike  A/C 

15.32298 

3.921073 

Schwarz  SC 

15.73521 

4.33331  1 

Media  de  la  variable  dependiente 

28  514.53 

11.67292 

DE  de  la  variable  dependiente 

3  623.058 

3.436688 

Determinante  de  covarianza  residual 
Log  verosimilitud  (gl  ajustados) 
Criterio  de  informacion  de  Akaike 
Criterio  de  Schwarz 

490  782.3 
-300.4722 
19.90451 
20.72899 

estadisticamente  significativos  en  lo  individual.  En  la  regresion  sobre  la  tasa  de  interes,  los  termi- 
nos  dinero  rezagado  (en  casi  un  nivel  de  5%)  e  interes  rezagado  resultan  individualmente 
significativos. 

Si  tenemos  que  hacer  una  eleccion  entre  el  modelo  de  la  tabla  22.2  y  el  de  la  22.3,  (',cua!  esco- 
gerla?  Los  valores  de  informacion  Akaike  y  Schwarz  para  el  modelo  de  la  tabla  22.2  son  15.32 
y  15.73,  respectivamente,  en  tanto  que  los  correspondientes  a  la  tabla  22.3  son  15.10  y  15.33. 
Como  mientras  mas  bajos  sean  los  valores  de  los  estadlsticos  Akaike  y  Schwarz  mejor  sera  el 
modelo,  parece  preferible  el  modelo  mas  parco  de  la  tabla  22.3.  Tambien  consideramos  seis 
rezagos  de  cada  variable  endogena  y  descubrimos  que  los  valores  de  los  estadlsticos  Akaike  y 
Schwarz  fueron  de  15.37  y  15.98,  respectivamente.  De  nuevo,  la  eleccion  parece  el  modelo  con 
dos  terminos  rezagados  de  cada  variable  endogena,  es  decir,  el  modelo  de  la  tabla  22.3. 

Pronostico  con  el  modelo  VAR 

Suponga  que  elegimos  el  modelo  de  la  tabla  22.3  para  predecir  los  valores  de  M\  y  R.  Recuerde 
que  los  datos  abarcan  el  periodo  del  primer  trimestre  de  1979  al  cuarto  de  1988,  pero  no  utiliza- 
mos  los  valores  para  1988  al  estimar  los  modelos  VAR.  Ahora  suponga  que  deseamos  pronosticar 
el  valor  deAf!  para  1-1988,  es  decir,  el  primer  trimestre  de  1988.  Obtenemos  el  valor  pronosticado 
para  1-1988  de  la  siguiente  forma: 

AT1988-1  —  1  451.977  +  1.0375A/i987_iv  —  0.0446A/i987_m 
—  234.8850Ri987_iv  +  160.1560i?i987—  m 
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TAB  LA  22.3 

Estimaciones  de  vectores 
autorregresivos  con  base 
en  dos  rezagos 


Muestra  (ajustada):  tercer  trimestre  de  1979  al  cuarto  trimestre  de  1987 

Observaciones  incluidas:  34  despues  de  ajustar  los  extremos 

Los  errores  estandar  estan  entre  parentesis  y  el  estadfstico  f  entre  corchetes 


Mi 

Mi  (-1 )  1 .037537  (0.1  6048)  [6.46509] 

Mi  (-2)  -0.044661  (0.1 5591 )  [-0.28646] 

R  (-1 )  -234.8850  (45.5224)  [-5.1 5977] 

R  (-2)  160.1560  (48.5283)  [3.30026] 

C  1  451 .977  (1  1  85.59)  [1 .22468] 

R 

0.001091  (0.00059)  [1.85825] 
-0.001255  (0.00057)  [-2.19871] 
1.069081  (0.16660)  [6.41708] 
-0.223364  (0.1  7760)  [-1 .25768] 
5.796434  (4.33894)  [1 .33591  ] 

R2 

0.988198 

0.806660 

R2  ajustada 

0.986571 

0.779993 

Suma  de  cuadrados  residual 

5  373  510. 

71.97054 

Ecuacion  del  ee 

430.4573 

1.575355 

Estadfstico  F 

607.0720 

30.24878 

Log  verosimilitud 

-251.7446 

-60.99215 

Akaike  A/C 

15.10263 

3.881891 

Schwarz  SC 

15.32709 

4.106356 

Media  de  la  variable  dependiente 

28  216.26 

11.75049 

DE  de  la  variable  dependiente 

3  714.506 

3.358613 

Determinante  de  covarianza  residual 
Log  verosimilitud  (gl  ajustados) 
Criterio  de  informacion  de  Akaike 
Criterio  de  Schwarz 

458  485.4 
-318.0944 
19.29967 
19.74860 

donde  los  valores  de  los  coeficientes  se  obtuvieron  de  la  tabla  22.3.  Ahora,  con  los  valores  apro- 
piados  de  M\  y  R  de  la  tabla  17.5,  podemos  afirmar  que  el  valor  pronosticado  del  dinero  para 
el  primer  trimestre  de  1988  es  de  36  996  (millones  de  dolares  canadienses).  El  valor  real  de  M\ 
para  el  primer  trimestre  de  1988  fue  de  36  480,  lo  que  significa  que  el  modelo  pronostico  en  ex- 
ceso  el  valor  real  por  casi  516  (millones  de  dolares),  cantidad  que  representa  casi  1.4%  del  valor 
real  de  M\  para  1-1988.  Desde  luego,  estas  estimaciones  cambian  en  funcion  de  la  cantidad  de 
valores  rezagados  que  consideremos  en  el  modelo  VAR.  Dejamos  como  ejercicio  para  el  lector 
pronosticar  el  valor  de  R  para  el  primer  trimestre  de  1988  y  compararlo  con  su  valor  real  para 
dicho  periodo. 

VAR  y  causalidad 

Recordara  que  ya  estudiamos  el  tema  de  la  causalidad  en  el  capitulo  17.  Ahi  estudiamos  las 
pruebas  de  Granger  y  Sims  de  la  causalidad.  (;Existe  alguna  conexion  entre  el  modelo  VAR  y  la 
causalidad?  En  el  capitulo  17  (seccion  17. 14)  vimos  que,  hasta  el  nivel  de  2, 4  y  6  rezagos,  habia 
una  causalidad  bilateral  entre  M\  y  R,  pero  que  en  el  rezago  8  no  existia  causalidad  entre  las  dos 
variables.  Por  consiguiente,  los  resultados  son  ambiguos.  Ahora  recordara,  del  capitulo  21,  el 
teorema  de  representacion  de  Granger.  Una  implicacion  de  este  teorema  es  que  si  dos  variables, 
por  ejemplo  X,  y  Yt,  estan  cointegradas  y  cada  una  es  individualmente  /( 1),  es  decir,  es  integrada 
de  orden  1  (por  ejemplo,  cada  una  es  no  estacionaria  individualmente),  X,  debe  causar  (segun  el 
criterio  de  Granger)  a  Yh  o  Y,  debe  causar  (segun  el  criterio  de  Granger)  a  X,. 

En  el  ejemplo  ilustrativo,  esto  significa  que  Mi  y  R  son  individualmente  7(1)  pero  estan  coin¬ 
tegradas,  entonces  M\  debe  causar  (  segun  el  criterio  de  Granger)  a  R  o  R  debe  causar  (segun  el 
criterio  de  Granger)  a  Mi.  Esto  significa  que  debemos  averiguar  primero  si  ambas  variables  son 
individualmente  7(1)  y  luego  si  estan  cointegradas.  De  no  ser  asi,  todo  el  asunto  de  la  causalidad 
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se  convertiria  en  una  ficcion.  En  el  ejercicio  22.22  se  pide  al  lector  determinar  si  las  dos  variables 
son  no  estacionarias  pero  estan  cointegradas.  Si  efectua  el  ejercicio,  descubrira  una  debil  eviden- 
cia  de  cointegracion  entre  M\  y  R,  razon  por  la  cual  las  pruebas  de  causalidad  analizadas  en  la 
section  17.14  eran  erroneas. 


Algunos  problemas  en  la  creacion  de  modelos  VAR 

Los  defensores  de  VAR  destacan  las  siguientes  virtudes  del  metodo:  1)  El  metodo  es  simple;  no 
es  preciso  preocuparse  por  determinar  cuales  variables  son  endogenas  y  cuales  son  exogenas. 
Todas  las  variables  en  VAR  son  endogenas.13  2)  La  estimacion  es  simple,  es  decir,  el  metodo 
usual  de  MCO  es  aplicable  a  cada  ecuacion  por  separado.  3)  Las  predicciones  obtenidas  mediante 
este  metodo  son  en  muchos  casos  mejores  que  las  obtenidas  con  modelos  de  ecuaciones  simul¬ 
taneas  mas  complejos.14 

No  obstante,  los  criticos  de  los  modelos  VAR  senalan  los  siguientes  problemas: 

1 .  A  diferencia  de  los  modelos  de  ecuaciones  simultaneas,  un  modelo  VAR  es  ateorico  por- 
que  utiliza  menos  informacion  previa.  Recuerde  que  en  los  modelos  de  ecuaciones  simultaneas, 
la  exclusion  o  inclusion  de  ciertas  variables  desempena  un  papel  crucial  en  la  identification  del 
modelo. 

2.  Debido  a  su  acento  en  el  pronostico,  los  modelos  VAR  son  menos  apropiados  para  el  ana- 
lisis  de  politicas. 

3.  El  mayor  desafio  practico  en  el  diseno  de  modelos  VAR  es  seleccionar  la  longitud  apro- 
piada  del  rezago.  Suponga  que  tenemos  un  modelo  VAR  de  tres  variables  y  decidimos  incluir 
ocho  rezagos  de  cada  variable  en  cada  ecuacion.  Tendremos  24  parametros  rezagados  en  cada 
ecuacion  mas  el  termino  constante,  para  un  total  de  25  parametros.  A  menos  que  el  tamano  de 
la  muestra  sea  grande,  la  estimacion  de  tantos  parametros  consumira  muchos  grados  de  libertad, 
con  todos  los  problemas  asociados  a  esto.15 

4.  En  sentido  estricto,  en  un  modelo  VAR  de  m  variables,  todas  las  m  variables  deben  ser 
estacionarias  (en  forma  conjunta).  Si  no  es  asi,  tendremos  que  transformar  la  informacion  en 
forma  apropiada  (por  ejemplo,  mediante  una  primera  diferenciacion).  Como  menciona  Harvey, 
los  resultados  de  la  informacion  transformada  pueden  ser  no  satisfactorios.  Afirma  ademas:  “El 
metodo  usual  adoptado  por  los  aficionados  al  VAR  es,  por  consiguiente,  trabajar  en  niveles,  aun- 
que  algunas  de  estas  series  no  sean  estacionarias.  En  este  caso  es  importante  reconocer  el  efecto 
de  las  raices  unitarias  en  la  distribution  de  los  estimadores”.16  Peor  aun,  si  el  modelo  contiene 
una  mezcla  de  variables  7(0)  e  7(1),  es  decir,  una  mezcla  de  variables  estacionarias  y  no  estacio¬ 
narias,  no  sera  facil  transformar  la  informacion. 

Sin  embargo,  Cuthbertson  sostiene:  “El  analisis  de  cointegracion  indica  que  un  VAR  solo 
en  primeras  diferencias  esta  mal  especificado  si  hay  algunos  vectores  cointegrantes  presentes 
entre  la  serie  7(1).  Dicho  de  otro  modo,  un  VAR  exclusivamente  en  primeras  diferencias  omite 


1 3  Algunas  veces  se  incluyen  variables  puramente  exogenas  para  dar  cabida  a  factores  estacionales  y  de  ten- 
dencia. 

14Vease,  por  ejemplo,  T.  Kinal  y  J.B.  Ratner,  "Regional  Forecasting  Models  with  Vector  Autoregression:  The 
Case  of  New  York  State",  documento  de  trabajo  #  155,  Departamento  de  Economfa,  State  University  of 
New  York  at  Albany,  1 982. 

15  Si  tenemos  un  modelo  VAR  de  m  ecuaciones  con  p  valores  rezagados  de  las  m  variables,  en  total  tenemos 
que  estimar  (m  +  pm2)  parametros. 

16  Andrew  Harvey,  The  Econometric  Analysis  of  Time  Series,  The  MIT  Press,  2a.  ed.,  Cambridge,  Massachusetts, 
1990,  p.  83. 
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variables  estacionarias  potencialmente  importantes  (es  decir,  la  correction  de  errores,  vectores 
cointegrantes)  y,  por  consiguiente,  las  estimaciones  de  los  parametros  pueden  padecer  el  sesgo 
de  variables  omitidas”.17 

5.  Como  con  frecuencia  es  dificil  interpretar  los  coeficientes  individuales  estimados  en  los 
modelos  VAR,  los  practicantes  de  esta  tecnica  a  menudo  estiman  la  llamada  funcion  de  impulso- 
respuesta  (FIR).  La  FIR  estudia  la  respuesta  de  la  variable  dependiente  en  el  sistema  VAR  ante 
choques  en  los  terminos  de  error,  como  u\  y  ui  en  las  ecuaciones  (22.9.1)  y  (22.9.2).  Suponga 
que  «i  en  la  ecuacion  M\  aumenta  en  el  valor  de  una  desviacion  estandar.  Ese  choque  o  cambio 
modificara  a  M\  tanto  en  el  periodo  actual  como  en  periodos  futuros.  Pero,  como  M\  aparece  en 
la  regresion  de  R,  el  cambio  en  u\  afectara  tambien  a  R.  En  forma  similar,  un  cambio  de  una  des¬ 
viacion  estandar  en  U2  de  la  ecuacion  de  R  tendra  un  efecto  sobre  M\.  La  FIR  estudia  el  impacto 
de  tales  choques  durante  varios  periodos  en  el  future.  Aunque  los  investigadores  cuestionan  la 
utilidad  del  analisis  FIR,  es  la  pieza  central  en  el  analisis  VAR. 18 

Para  comparar  el  desempeno  de  VAR  con  otras  tecnicas  de  pronostico,  el  lector  puede  consul- 
tar  las  references. 19 


Una  aplicacion  de  VAR:  un  modelo  VAR 
de  la  econorma  de  Texas 

Para  probar  el  refran  convencional:  “Por  donde  va  la  mancha  de  petroleo  se  extiende  la  economia 
de  Texas”,  Thomas  Fomby  y  Joseph  Hirschberg  elaboraron  un  modelo  VAR  de  tres  variables  de 
la  economia  de  Texas  de  1-1974  a  I-198  8.20  Las  tres  variables  fueron:  1)  cambio  porcentual  del 
precio  real  del  petroleo,  2)  cambio  porcentual  del  empleo  no  agricola  de  Texas  y  3)  cambio  por¬ 
centual  del  empleo  no  agricola  en  el  resto  de  Estados  Unidos.  Los  autores  introdujeron  el  termino 
constante  y  dos  valores  rezagados  de  cada  variable  en  cada  ecuacion.  Por  consiguiente,  el  numero 
de  parametros  estimados  en  cada  ecuacion  fue  de  siete.  En  la  tabla  22.4  se  presentan  los  resulta- 
dos  de  la  estimation  por  MCO  del  modelo  VAR.  Las  pruebas  F  de  esta  tabla  deben  corroborar 
la  hipotesis  de  que,  en  forma  conjunta,  los  diversos  coeficientes  rezagados  son  cere.  Por  tanto,  la 
prueba  F  para  la  variable  x  (cambio  porcentual  del  precio  real  del  petroleo)  muestra  que  los  dos 
terminos  rezagados  de  x  son  estadisticamente  diferentes  de  cere;  la  probabilidad  de  obtener  un 
valor  Fde  12.5536,  segun  la  hipotesis  nula  de  que  ambos  son  simultaneamente  iguales  a  cere,  es 
muy  baja,  alrededor  de  0.00004.  Por  otra  parte,  en  forma  conjunta,  los  dos  valores  y  rezagados 
(cambio  porcentual  en  el  empleo  no  agricola  de  Texas)  no  son  significativamente  diferentes  de 
cere  para  explicar  x ;  el  valor  F  es  solo  1.36.  Todos  los  demas  estadisticos  F  deben  interpretarse 
en  forma  similar. 

Con  base  en  estos  y  otros  resultados  presentados  en  su  trabajo,  Fomby  y  Hirschberg  concluyen 
que  el  refran  sobre  la  economia  de  Texas  no  es  del  todo  preciso,  pues,  despues  de  la  inestabilidad 
inicial  resultante  de  las  crisis  del  petroleo  de  los  paises  de  la  OPEP,  la  economia  de  Texas  es  ahora 
menos  dependiente  de  las  fluctuaciones  en  el  precio  del  petroleo. 


17  Keith  Cuthbertson,  Quantitative  Financial  Economics:  Stocks,  Bonds  and  Foreigh  Exchange,  John  Wiley  & 
Sons,  Nueva  York,  2002,  p.  436. 

18  D.E.  Runkle,  "Vector  Autoregression  and  Reality",  journal  of  Business  and  Economic  Statistics,  vol.  5,  1 987, 
pp.  437-454. 

19  S.  McNees,  "Forecasting  Accuracy  of  Alternative  Techniques:  A  Comparison  of  U.S.  Macroeconomic  Fore¬ 
casts",  Journal  of  Business  and  Economic  Statistics,  vol.  4,  1 986,  pp.  5-1 5;  E.  Mahmoud,  "Accuracy  in  Fore¬ 
casting:  A  Survey",  Journal  of  Forecasting,  vol.  3,  1 984,  pp.  1 39-159. 

20 Thomas  B.  Fomby  y  Joseph  C.  Hiarschberg,  "Texas  in  Transition:  Dependence  on  Oil  and  the  National 
Economy",  en  Economic  Review,  Federal  Reserve  Bank  of  Dallas,  enero  de  1989,  pp.  11-28. 
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TAB  LA  22.4 

Resultados  de  la  esti¬ 
mation  del  sistema  VAR 
de  segundo  orden*  de 
Texas:  1-1974  a  1-1988 

Fuente:  Economic  Review ,  Fede¬ 
ral  Reserve  Bank  of  Dallas,  enero 
de  1989,  p.  21. 


Variable  dependiente: 

x  (cambio  porcentual  del  precio  real  del  petroleo) 

Variable 

Rezagc 

>  Coeficiente  Error  estandar 

Nivel  de  significancia 

X 

1 

0.7054  0.1409 

0.8305E-5 

X 

2 

-0.3351  0.1500 

0.3027E-1 

y 

1 

-1.3525  2.7013 

0.6189 

y 

2 

3.4371  2.4344 

0.1645 

z 

1 

3.4566  2.8048 

0.2239 

z 

2 

-4.8703  2.7500 

0.8304E-1 

Constante 

0 

-0.9983E-2  0.1 696E-1 

0.5589 

R2  =  0.2982;  Q(21)  = 

8.2618  (P=  0.9939) 

Pruebas  de  significance  conjunta,  variable  dependiente  =  x 

Variable 

Estadfstico  F 

Nivel  de  significancia 

X 

12.5536 

0.4283E-4 

y 

1.3646 

0.2654 

z 

1.5693 

0.2188 

Variable  dependiente:  y  (cambio  porcentual  del  empleo  no  agricola  de  Texas) 

Variable 

Rezagc 

»  Coeficiente  Error  estandar 

Nivel  de  significancia 

X 

1 

0.2228E-1  0.8759E-2 

0.1 430E-1 

X 

2 

-0.1 883E-2  0.9322E-2 

0.8407 

/ 

1 

0.6462  0.1678 

0.3554E-3 

/ 

2 

0.4234E-1  0.1512 

0.7807 

z 

1 

0.2655  0.1742 

0.1342 

z 

2 

-0.1715  0.1708 

0.3205 

Constante 

0 

-0.1  602E-2  0.1 053E-1 

0.1351 

R2  =  0.6316;  Q(21)  = 

21.5900  (P=  0.4234) 

Pruebas  de  significancia  conjunta,  variable  dependiente  =  y 

Variable 

Estadfstico  F 

Nivel  de  significancia 

X 

3.6283 

0.3424E-4 

y 

19.1440 

0.8287E-6 

z 

1.1684 

0.3197 

Variable  dependiente: 

z  (cambio  porcentual  del  empleo  no  agrfcola 

en  el  resto 

de  Estados  Unidos) 

Variable 

Rezagc 

»  Coeficiente  Error  estandar 

Nivel  de  significancia 

X 

1 

-0.8330E-2  0.6849E-2 

0.2299 

X 

2 

0.3635E-2  0.7289E-2 

0.6202 

/ 

1 

0.3849  0.1312 

0.51  70E-2 

y 

2 

-0.4805  0.1182 

0.1 828E-2 

z 

1 

0.7226  0.1362 

0.3004E-5 

z 

2 

-0.1 366E-1  0.1336 

0.9190 

Constante 

0 

-0.2387E-2  0.8241  E-3 

0.5701  E-2 

R2  =  0.6503;  Q(21)  = 

15.6182  (P=  0.7907) 

Pruebas  para  la  significancia  conjunta,  variable  dependiente  =  z 

Variable 

Estadfstico  F 

Nivel  de  significancia 

X 

0.7396 

0.4827 

y 

8.2714 

0.8360E-3 

z 

27.9609 

0.1  OOOE-7 

*  Terminos  con  dos  rezagos  de  cada  variable. 
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22.10  Medicion  de  la  volatilidad  de  las  series  de  tiempo 
financier  as:  modelos  ARCH  y  GARCH 

Como  mencionamos  en  la  introduction  de  este  capitulo,  las  series  de  tiempo  financieras,  como 
precios  de  acciones,  tasas  de  cambio,  tasas  de  inflation,  etc.,  a  menudo  presentan  el  fenomeno  de 
acumulacion  de  la  volatilidad;  es  decir,  existen  lapsos  en  los  que  sus  precios  muestran  amplias 
variaciones  durante  prolongados  periodos  y  luego  se  dan  intervalos  de  una  calma  relativa.  Como 
senala  Philip  Franses: 

En  vista  de  que  tales  datos  (las  series  de  tiempo  financieras)  reflejan  el  resultado  del  comercio  entre 
compradores  y  vendedores  a  precios  del  mercado,  por  ejemplo,  diversas  fuentes  de  noticias  y  otros 
acontecimientos  exogenos  pueden  afectar  el  patron  de  las  series  de  tiempo  de  los  precios  de  los  valo- 
res.  En  vista  de  que  las  noticias  tienen  diversas  interpretaciones  y  tambien  de  que  los  acontecimientos 
economicos  especificos,  como  las  crisis  del  petroleo,  perduran  cierto  tiempo,  a  menudo  vemos  que 
las  grandes  observaciones  positivas  y  negativas  en  las  series  de  tiempo  financieras  tienden  a  aparecer 
en  grupos.21 

Conocer  la  volatilidad  es  muy  importante  en  muchas  areas.  Por  ejemplo,  existe  una  enorme 
cantidad  de  trabajo  en  econometria  sobre  la  variabilidad  de  la  inflation  a  lo  largo  del  tiempo.  Para 
algunas  personas  con  poder  de  decision,  la  inflation  en  si  misma  quiza  no  sea  danina,  pero  no  es 
deseable  su  variabilidad  porque  dificulta  la  planificacion  financiera. 

Sucede  lo  mismo  con  los  importadores,  exportadores  y  comerciantes  que  acuden  a  los  merca- 
dos  de  cambio  de  divisas,  pues  la  variabilidad  de  las  tasas  de  cambio  representa  grandes  perdidas 
o  ganancias.  A  los  inversionistas  de  las  casas  de  bolsa  obviamente  les  interesa  la  volatilidad  de  los 
precios  de  las  acciones,  pues  una  gran  volatilidad  puede  significar  enormes  perdidas  o  ganancias 
y,  en  consecuencia,  provocar  mayor  incertidumbre.  En  los  mercados  volatiles,  a  las  companias  les 
resulta  dificil  capitalizarse  en  los  mercados  de  capital. 

(',C6mo  se  modelan  las  series  de  tiempo  financieras  que  experimentan  tal  volatilidad?  Por 
ejemplo,  ^como  se  elabora  un  modelo  de  las  series  de  tiempo  de  precios  de  acciones,  tasas  de 
cambio,  inflation,  etcetera?  Una  caracteristica  de  la  mayoria  de  estas  series  de  tiempo  financieras 
consiste  en  que  en  su  forma  de  nivel  son  caminatas  aleatorias;  es  decir,  son  no  estacionarias.  Por 
otra  parte,  en  la  forma  de  primeras  diferencias,  por  lo  general  resultan  estacionarias,  como  vimos 
en  el  caso  de  las  series  del  PIB  del  capitulo  anterior,  aunque  el  P1B  no  sea  estrictamente  una  serie 
de  tiempo  financiera. 

En  consecuencia,  en  vez  de  modelar  las  series  de  tiempo  financieras  en  su  forma  de  nivel,  ,',por 
que  no  hacer  los  modelos  de  sus  primeras  diferencias?  Sin  embargo,  estas  primeras  diferencias 
suelen  presentar  amplias  variaciones,  o  volatilidad,  lo  cual  indica  que  la  varianza  de  las  series 
de  tiempo  financieras  se  modifica  con  el  tiempo.  ('.Como  podemos  determinar  el  modelo  de  dicha 
“variation  cambiante”?  En  estos  casos  es  cuando  resulta  practico  el  llamado  modelo  de  heteros- 
cedasticidad  conditional  autorregresivo  (ARCH),  que  originalmente  desarrollo  Engle.22 

Como  su  nombre  lo  indica,  la  heteroscedasticidad,  o  varianza  desigual,  puede  tener  una  es- 
tructura  autorregresiva  en  la  que  la  heteroscedasticidad  observada  a  lo  largo  de  diferentes  perio¬ 
dos  quiza  este  autocorrelacionada.  Para  tener  idea  de  todo  lo  que  esto  significa,  analizaremos  un 
ejemplo  concreto. 


21  Philip  Hans  Franses,  Time  Series  Models  for  Business  and  Economic  Forecasting,  Cambridge  University  Press, 
Nueva  York,  1998,  p.  155. 

22  R.  Engle,  "Autoregressive  Conditional  Heteroscedasticity  with  Estimates  of  the  Variance  of  United 
Kingdom  Inflation",  en  Econometrica,  vol.  50,  num.  1,  1982,  pp.  987-1007.  Vease  tambien  A.  Bera  y  M. 
Higgins,  "ARCH  Models:  Properties,  Estimation  and  Testing",  en  Journal  of  Economic  Surveys,  vol.  7,  1993, 
pp.  305-366. 
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EJEMPLO  22.1 

Tipo  de  cambio  Es- 
tados  Unidos/Reino 
Unido:  Ejemplo 


FIGURA  22.6 

Logaritmo  del  tipo  de 
cambio  Estados  Unidos/ 
Reino  Unido,  1971-2007 
(mensual). 


FIGURA  22.7 

Variacion  en  el  loga¬ 
ritmo  del  tipo  de  cambio 
Estados  Unidos/Reino 
Unido. 


La  figura  22.6  proporciona  los  logaritmos  del  tipo  de  cambio  mensual  entre  Estados  Unidos  y  el 
Reino  Unido  (dolares  por  libra)  de  1 971  a  2007,  para  un  total  de  444  observaciones  mensuales. 
Como  observa  en  esta  figura,  hay  considerables  altibajos  en  el  tipo  de  cambio  a  lo  largo  del  pe- 
riodo  muestral.  Para  ver  este  movimiento  de  forma  mas  ilustrativa,  en  la  figura  22.7  graficamos 
las  variaciones  en  los  logaritmos  del  tipo  de  cambio;  observe  que  las  variaciones  en  los  logarit¬ 
mos  de  una  variable  denotan  cambios  relativos,  los  cuales,  si  se  multiplican  por  100,  propor- 
cionan  los  cambios  porcentuales.  Como  se  observa,  los  cambios  relativos  en  el  tipo  de  cambio 
EUA/RU  muestran  periodos  de  una  amplia  variacion  durante  cierto  tiempo,  y  lapsos  de  fluctua- 
cion  mas  bien  moderada,  lo  cual  ejemplifica  el  fenomeno  de  acumulacion  de  la  volatilidad. 

Ahora  bien,  la  pregunta  practica  es:  ^como  medimos  estadisticamente  la  volatilidad?  Ilustra- 
remos  esto  con  el  ejemplo  del  tipo  de  cambio. 

Sea  Yt  =  tipo  de  cambio  Estados  Unidos/RU 
Y*  =  log  de  Yt 

dY*  =  Y*  —  Y*_ i  =  variacion  relativa  del  tipo  de  cambio 
dY*  =  media  de  dY* 

Xt=dY*  -  dY* 


Ano 
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EJEMPLO  22.1 

(i continuation ) 


Por  consiguiente,  Xt  es  el  cambio  relativo  ajustado  por  la  media  en  el  tipo  de  cambio.  Ahora 
podemos  utilizar  X2  como  una  medida  de  la  volatilidad.  Al  ser  una  cantidad  al  cuadrado,  su 
valor  sera  alto  en  periodos  en  que  se  experimenten  grandes  cambios  en  los  precios  de  los  bienes 
financieros,  y  comparativamente  pequeno  cuando  sucedan  cambios  modestos  en  los  precios  de 
dichos  bienes.23 

Al  aceptar  X2  como  medida  de  la  volatilidad,  ^como  sabemos  si  cambia  con  el  tiempo?  Su- 
ponga  que  consideramos  el  siguiente  modelo  AR(1)  o  ARIMA  (1,  0,  0): 

Xt2  =  Po  +  J8i  Xt2_!  +  ut  (22.10.1) 

Este  modelo  postula  que  la  volatilidad  en  el  periodo  actual  esta  relacionada  con  su  valor  del 
periodo  anterior  mas  un  termino  de  error  de  ruido  bianco.  Si  /?i  es  positiva,  esto  indica  que  si 
la  volatilidad  era  alta  en  el  periodo  anterior,  seguira  siendo  alta  en  el  periodo  actual,  lo  cual  senala 
una  acumulacion  de  volatilidad.  Si  ft i  es  cero,  no  se  presenta  una  acumulacion  de  volatilidad.  La 
significancia  estadfstica  del  /32  estimado  se  juzga  mediante  la  prueba  f  usual. 

No  existe  nada  que  impida  considerar  un  modelo  AR(p)  de  volatilidad  tal  que 

X 2  =  /So  +  /Si  X2_!  +  p2 X 2_2  +  •  •  •  +  p PX 2_p  +  ut  (22.10.2) 

Este  modelo  indica  que  la  volatilidad  en  el  periodo  actual  esta  relacionada  con  la  de  los  p  pe¬ 
riodos  anteriores,  y  el  valor  de  p  es  una  cuestion  empfrica  que  se  resuelve  mediante  uno  o  mas 
criterios  de  seleccion  de  modelos  que  estudiamos  en  el  capftulo  1  3  (por  ejemplo,  la  medida  de 
informacion  de  Akaike).  Podemos  probar  la  significancia  de  cualquier  coeficiente  individual  p 
mediante  la  prueba  f  y  la  significancia  colectiva  de  dos  o  mas  coeficientes  mediante  la  prueba 
F  usual. 

El  modelo  (22.10.1)  es  un  ejemplo  de  un  modelo  ARCH(1),  y  el  (22.10.2)  se  conoce  como 
modelo  ARCH(p),  donde  p  representa  el  numero  de  terminos  autorregresivos  en  el  modelo. 

Antes  de  continuar,  ejemplificaremos  el  modelo  ARCH  con  los  datos  del  tipo  de  cambio  entre 
EUA  y  RU.  Los  resultados  del  modelo  ARCH(1 )  fueron  los  siguientes: 

X2  =  0.00043  +  0.23036X*.., 

t  =  (7.71)  (4.97)  (22.10.3) 

R2  =  0.0531  d  =  1 .9933 


donde  X2  se  definio  como  antes. 

Como  el  coeficiente  del  termino  rezagado  es  en  gran  medida  significativo  (el  valor  p  es  de 
casi  0.000),  parece  que  hay  acumulacion  de  la  volatilidad  en  este  ejemplo.  Consideramos  mo¬ 
delos  ARCH  de  ordenes  mas  grandes,  pero  solo  el  AR(1)  resulto  significativo. 

En  general,  ^corno  probarfamos  el  efecto  ARCH  en  un  modelo  de  regresion  basado  en  datos 
de  series  de  tiempo?  Para  ser  mas  especfficos,  considere  el  modelo  de  regresion  con  k  varia¬ 
bles: 


Yt  =  P:+  /S2X2t  +  •  •  •  +  pkXkt  +  ut  (22.10.4) 

y  suponga  que  al  ser  condicional  respecto  de  la  informacion  disponible  en  el  tiempo  (t  —  1),  el 
termino  de  perturbacion  esta  distribuido  como 

ut  ~  N[0,  (ao  +  aiu2^)]  (22.10.5) 

( continua ) 


23  Tal  vez  se  pregunte  por  que  no  utilizar  la  varianza  de  Xt  =  Xf/n  como  medida  de  la  volatilidad.  Lo  an¬ 
terior  no  es  posible,  pues  deseamos  tomar  en  cuenta  la  volatilidad  cambiante  de  los  precios  de  las  acciones  a 
lo  largo  del  tiempo.  Si  utilizamos  la  varianza  de  Xt,  solo  constituirfa  un  unico  valor  para  el  conjunto  de  datos 
dado. 
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EJEMPLO  22.1  es  dear,  ut  sigue  la  distribucion  normal  con  media  0  y 

{continuation)  Var(ut)  =  («„  +  «i  u2_,)  (22.10.6) 

es  decir,  la  varianza  de  ut  sigue  un  proceso  ARCH(1). 

La  normalidad  de  ut  no  resulta  una  novedad.  Lo  que  sf  es  novedoso  es  que  la  varianza  de  u 
en  el  tiempo  t  dependa  de  la  perturbacion  al  cuadrado  en  el  tiempo  (f  —  1 ),  para  dar  asf  la  apa- 
riencia  de  una  correlacion  serial.24  Desde  luego,  la  varianza  del  error  puede  depender  no  solo  del 
termino  rezagado  del  termino  de  error  al  cuadrado,  sino  tambien  de  diversos  terminos  de  error 
al  cuadrado  rezagados,  de  la  siguiente  forma: 

var(Uf)  =  of  =  a0  +  on  u2_1  +  ce2u2_2  -f - 1-  apuf_p  (22.10.7) 

Si  no  hay  autocorrelacion  en  la  varianza  del  error,  tenemos 

Ho:  a-\  =  a2  =  ■  ■  ■  =  ap  =  0  (22.10.8) 

en  cuyo  caso  var(ut)  =  ao,  por  lo  que  tendrfamos  el  efecto  ARCH. 

Como  a 2  no  observamos  de  manera  directa,  Engle  demostro  que  al  llevar  a  cabo  la  siguiente 
regresion  se  prueba  con  facilidad  la  hipotesis  nula  anterior: 

Uf  =  ot o  +  oi]  rv f _ i  +  ot 2Uf-_2  +  ■  ■  +  otpUi_p  (22.1 0.9) 

donde  ut>  como  siempre,  denota  los  residuales  de  MCO  obtenidos  del  modelo  de  regresion 
original  (22.1 0.4). 

Se  puede  demostrar  la  hipotesis  nula  Ho  mediante  la  prueba  F  usual,  o  de  otra  manera, 
al  calcular  nR2,  donde  R2  es  el  coeficiente  de  determinacion  obtenido  de  la  regresion  auxiliar 
(22.10.9).  Se  puede  probar  que 

n«2y~x2  (22.10.10) 

es  decir,  para  muestras  grandes  nR2  sigue  la  distribucion  ji  cuadrada  cuyos  gl  son  iguales  al  nu- 
mero  de  terminos  autorregresivos  de  la  regresion  auxiliar. 

Antes  de  ejemplificar,  hay  que  asegurarse  de  no  confundir  la  autocorrelacion  del  termino  de 
error,  como  la  analizamos  en  el  capftulo  12,  con  el  modelo  ARCH.  En  dicho  modelo,  la  varianza 
(condicional)  de  ut  depende  de  los  terminos  de  error  (al  cuadrado)  anteriores,  por  lo  que  da  la 
impresion  de  que  existe  autocorrelacion. 


EJEMPLO  22.2 

Cambio  de  precios 
de  las  acciones  en 
la  Bolsa  de  Valores 
de  Nueva  York 


Como  otra  ejemplificacion  del  efecto  ARCH,  en  la  figura  22.8  presentamos  el  fndice  de  cambio 
porcentual  mensual  de  la  BVNY  (Bolsa  de  Valores  de  Nueva  York)  de  1 966  a  2002. 25  Resulta  evi- 
dente,  a  partir  de  la  grafica,  que  los  cambios  porcentuales  de  los  precios  del  fndice  de  la  BVNY 
presentan  una  volatilidad  considerable.  Observe  sobre  todo  la  enorme  variacion  alrededor  de  la 
cafda  de  los  precios  de  las  acciones  en  1987. 

Para  expresar  la  volatilidad  en  los  rendimientos  de  la  bolsa  de  la  figura,  considere  un  modelo 
muy  sencillo: 


Yt  =  P]+ut  (22.10.11) 

donde  Yt  =  cambio  porcentual  en  el  fndice  de  la  BVNY  y  ut  =  termino  de  error  aleatorio. 


24  Una  nota  tecnica:  Recuerde  que,  para  el  modelo  clasico  lineal,  supusimos  que  la  varianza  de  ut  era  igual 
a  a2,  que  en  el  presente  contexto  se  convierte  en  varianza  incondicional.  Si  oq  <  1,  la  condicion  de  esta- 
bilidad,  escribimos  a2  =  ap  +  aicr2;  es  decir,  a2  =  «o/(1  —  “i).  Lo  anterior  demuestra  que  la  varianza  incon¬ 
dicional  de  u  no  depende  de  t,  pero  sf  del  parametro  ARCH  a\. 

25  Esta  grafica  y  los  resultados  de  la  regresion  presentados  despues  se  basan  en  los  datos  recopilados  por 
Gary  Koop,  Analysis  of  Economic  Data,  John  Wiley  &  Sons,  Nueva  York,  2000  (los  datos  se  tomaron  del  disco 
que  acompana  a  esta  obra).  El  porcentaje  de  cambio  mensual  en  el  fndice  de  precios  de  las  acciones  puede 
considerarse  una  tasa  de  rendimiento  del  fndice. 
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EJEMPLO  22.2 

(i continuation ) 


FIGURA  22.8  Cambio  porcentual  mensual  del  indice  de  precios  de  la  BVNY,  1966-2002. 


Ano 

Observe  que,  aparte  del  intercepto,  no  existe  otra  variable  explicativa  en  el  modelo.  De  los 
datos,  obtenemos  la  siguiente  regresion  por  MCO: 

?t=  0.00574 

t  =  (3.36)  (22.10.12) 

d=  1.4915 

^Que  denota  este  intercepto?  Tan  solo  la  tasa  porcentual  promedio  de  rendimiento  del  Indice 
de  la  BVNY,  o  el  valor  medio  de  Yt  (^puede  verificar  esto?).  Asl,  en  el  periodo  muestral,  el  rendi¬ 
miento  promedio  mensual  del  fndice  de  la  BVNY  fue  de  casi  0.00574%. 

Ahora  obtenemos  los  residuos  a  partir  de  la  regresion  anterior  y  estimamos  el  modelo 
ARCH(1),  lo  cual  proporciona  los  siguientes  resultados: 

uf  =  0.000007  +  0.25406ut2_1 

t=  (0.000)  (5.52)  (22.10.13) 

R2  =  0.0645  d=  1.9464 

donde  ute s  el  residuo  estimado  de  la  regresion  (22.10.12). 

Como  el  termino  de  perturbacion  rezagado  al  cuadrado  es  estadlsticamente  significativo  (el 
valor  de  p  es  de  casi  0.000),  parece  que  las  varianzas  de  los  errores  estan  correlacionadas;  es 
decir,  existe  un  efecto  ARCH.  Probamos  modelos  ARCH  de  orden  superior,  pero  solo  ARCH(1) 
fue  estadlsticamente  significativo. 


^Que  hacer  cuando  ARCH  esta  presente? 

Recuerde  que  ya  analizamos  diversos  metodos  para  corregir  la  heteroscedasticidad,  lo  cual  basica- 
mente  esta  implicito  al  aplicar  el  metodo  de  MCO  para  transformar  los  datos.  Debe  tener  presente 
que  MCO  aplicados  a  los  datos  transformados  son  minimos  cuadrados  generalizados  (MCG). 
Si  se  encuentra  el  efecto  ARCH,  tendremos  que  utilizar  MCG.  No  daremos  detalles  tecnicos, 
pues  trascienden  el  alcance  de  esta  obra.26  Por  fortuna,  los  software  como  EViews,  SHAZAM, 
MICROFIT  y  PC-GIVE  ahora  cuentan  con  rutinas  sencillas  para  estimar  dichos  modelos. 


26  Consulte  Russell  Davidson  y  James  G.  MacKinnon,  Estimation  and  Inference  in  Econometrics,  Oxford  Univer¬ 
sity  Press,  Nueva  York,  1 993.  Vease  la  sec.  1 6.4  y  William  H.  Greene,  Econometric  Analysis,  4a.  ed.,  Prentice 
Hall,  Englewood  Cliffs,  Nueva  Jersey,  2000,  sec.  1 8.5. 
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Advertencia  sobre  la  prueba  d  de  Durbin-Watson  y  el  efecto  ARCH 

Hemos  recordado  al  lector  varias  veces  que  un  estadlstico  d  significative  tal  vez  no  signifique 
siempre  que  exista  una  autocorrelation  significativa  en  los  datos  disponibles.  Con  mucha  fre- 
cuencia,  un  valor  d  significativo  es  una  indication  de  que  existen  errores  de  especificacion  del 
modelo,  los  cuales  analizamos  en  el  capitulo  13.  Ahora  tenemos  un  error  de  especificacion  adi- 
cional,  el  debido  al  efecto  ARCH.  Por  consiguiente,  en  una  regresion  de  series  de  tiempo,  si  se 
obtiene  un  valor  d  significativo,  debemos  probar  la  existencia  del  efecto  ARCH  antes  de  aceptar 
el  estadistico  d  plenamente.  En  el  ejercicio  22.23  damos  un  ejemplo. 

Nota  sobre  el  modelo  GARCH 

Desde  su  “descubrimiento”,  en  1982,  la  elaboracion  de  modelos  ARCH  se  ha  convertido  en  un 
area  floreciente,  con  todo  tipo  de  variantes  respecto  del  modelo  original.  Uno  muy  popular  es  el 
condicional  autorregresivo  generalizado  con  heteroscedasticidad,  propuesto  por  Bollerslev.27 
El  modelo  GARCH  mas  simple  es  el  GARCH(1,1),  que  se  expresa  como: 

er2  =  o!o  +  on  m2_j  +  ot2a?-\  (22.10.14) 

el  cual  enuncia  que  la  varianza  condicional  de  u  en  el  tiempo  t  depende  no  solo  del  termino  de 
error  al  cuadrado  del  periodo  anterior  [como  sucede  en  ARCH(l)],  sino  tambien  de  su  varianza 
condicional  en  el  periodo  anterior.  Este  modelo  puede  generalizarse  al  modelo  GARCHQp,  q)  en 
el  que  existen p  terminos  rezagados  del  termino  de  error  al  cuadrado  y  q  terminos  de  las  varianzas 
condicionales  rezagadas. 

No  proporcionamos  los  detalles  tecnicos  de  estos  modelos,  como  estan  presentes;  pero  si 
diremos  que  el  modelo  GARCH(1,  1)  equivale  a  un  ARCH(2)  y  el  modelo  GARCH  (p,  q)  al 
ARCH(p  +  q).n 

Para  los  ejemplos  del  tipo  de  cambio  entre  el  dolar  estadounidense  y  la  libra  inglesa,  y  el  de  los 
rendimientos  de  las  acciones  en  la  BVNY,  ya  establecimos  que  un  modelo  ARCH(2)  no  era  signi¬ 
ficativo,  lo  cual  indica  que  un  modelo  GARCH(1,  1)  quiza  no  resulta  apropiado  en  estos  casos. 


22.11  Ejemplos  para  concluir 


Este  capitulo  finaliza  con  el  estudio  de  unos  cuantos  ejemplos  adicionales  que  ilustran  algunos 
puntos  que  analizamos  aqui. 


EJEMPLO  22.3 

Relation  entre  el 
Indice  de  oferta- 
demanda  de  empleo 
(IOD)  y  la  tasa  de 
desempleo  (TD) 
de  enero  de  1969  a 
enero  de  2000. 


Para  analizar  la  causalidad  entre  el  IOD  y  la  TD,  dos  indicadores  de  las  condiciones  del  mercado 
de  trabajo  en  Estados  Unidos,  Marc  A.  Giammatteo  planted  el  siguiente  modelo  de  regresion:29 

25  25 

IODt  =  0-0  +  2>TDt_,  +  J2^ODt-i  (22.11.1) 

i=i  i 

25  25 

TDf  =  ao  +  ^/,,TD(_,  +  ^5ylODt_;  (22.11.2) 

;=i  j= i 

Con  el  objeto  de  ahorrar  espacio,  no  presentamos  los  resultados  propiamente  dichos  de  la 
regresion,  pero  la  conclusion  principal  que  surge  de  este  analisis  es  que  existe  una  causalidad  bi¬ 
lateral  entre  los  dos  indicadores  del  mercado  de  trabajo;  asimismo,  dicha  conclusion  no  cambio 
cuando  se  modified  la  duracion  del  rezago.  Los  datos  sobre  el  IOD  y  la  TD  se  proporcionan  en 
el  sitio  Web  del  libro,  en  la  tabla  22.5. 


27  T.  Bollerslev,  "Generalized  Autorregresive  Conditional  Heteroscedasticity",  en  Journal  of  Econometrics,  vol. 
31,  1986,  pp.  307-326. 

28  Para  mayores  detalles,  vease  Davidson  y  MacKinnon,  op.  cit.,  pp.  558-560. 

29  Marc  A.  Giammatteo  (West  Point,  Generacion  de  2000),  "The  Relationship  between  the  Help-Wanted 
Index  and  the  Unemployment  Rate",  trabajo  final  del  trimestre  escolar,  inedito.  (La  notacion  se  modified  con 
el  objeto  de  adaptarla  a  la  de  este  libro.) 
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EJEMPLO  22.4 

Creadon  de  un  mo- 
delo  ARIMA  para  el 
tipo  de  cambio  entre 
el  yen  y  el  dolar: 
de  enero  de  1971  a 
abril  de  2008 


El  tipo  de  cambio  yen/dolar  (¥/$)  es  un  tipo  de  cambio  clave.  Al  tomar  el  logaritmo  de  ¥/$  men- 
sual  se  encontro  que,  en  la  forma  nivel,  este  tipo  de  cambio  mostro  el  patron  habitual  de  una 
serie  de  tiempo  no  estacionaria.  Pero  al  analizar  las  primeras  diferencias,  se  descubrio  que  eran 
estacionarias;  la  grafica  de  esta  situacion  se  parece  mucho  a  la  figura  22.8. 

El  analisis  de  ralz  unitaria  confirmo  que  las  primeras  diferencias  de  los  logaritmos  de  ¥/$ 
eran  estacionarias.  Despues  de  examinar  el  correlograma  del  logaritmo  de  las  primeras  diferen¬ 
cias,  estimamos  el  siguiente  modelo  MA(1): 

?t  =  -0.0028  -  0.3300ut_i 

t=  (—1 .71)  (-7.32)  (22.11.3) 

R2  =  0.1012  d=  1.9808 


donde  Yt  =  las  primeras  diferencias  de  los  logaritmos  de  ¥/$  y  u  es  un  termino  de  error  de  ruido 
bianco. 

Para  ahorrar  espacio,  proporcionamos  los  datos  en  los  que  se  baso  el  analisis  anterior  en  el 
sitio  Web  del  libro,  en  la  tabla  22.6.  Con  esa  informacion,  se  pide  al  lector  que  pruebe  otros 
modelos  y  compare  los  pronosticos  obtenidos. 


EJEMPLO  22.5 

Modelo  ARCH  para 
la  tasa  de  inflacion 
de  Estados  Unidos: 
De  enero  de  1947  a 
marzo  de  2008 


Para  verificar  si  el  efecto  ARCH  esta  presente  en  la  tasa  de  inflacion  de  Estados  Unidos  segun  la 
mide  el  IPC,  obtuvimos  los  datos  de  dicho  fndice  de  enero  de  1947  a  marzo  de  2008.  La  grafica 
de  los  logaritmos  del  IPC  mostro  que  la  serie  de  tiempo  era  no  estacionaria.  Pero  la  grafica  de 
las  primeras  diferencias  de  los  logaritmos  del  IPC,  como  se  muestra  en  la  figura  22.9,  presenta 
volatilidad  considerable,  si  bien  las  primeras  diferencias  son  estacionarias. 

Segun  el  procedimiento  descrito  en  las  regresiones  (22.10.12)  y  (22.10.13),  primero  efec- 
tuamos  la  regresion  de  los  logaritmos  de  las  primeras  diferencias  del  IPC  sobre  una  constante  y 
obtenemos  los  residuos  de  esta  ecuacion.  Al  elevar  al  cuadrado  los  residuos  tenemos  el  siguiente 
modelo  ARCH(2): 

uf=  0.000028+  0.1 21 25ut2_1  +  0.0871 8uf_2 
t  =  (5.42)  (3.34)  (2.41)  (22.11.4) 

R2  =  0.026  d=  2.0214 


Como  puede  observar,  existe  una  enorme  persistencia  de  la  volatilidad,  pues,  en  el  mes  actual, 
depende  de  la  de  los  ultimos  tres  meses.  Se  recomienda  al  lector  que  obtenga  los  datos  sobre 
el  IPC  en  fuentes  gubernamentales  e  intente  averiguar  si  otro  modelo  resulta  mas  adecuado,  de 
preferencia  un  modelo  CARCH. 


FIGURA  22.9 

Primeras  diferencias  de 
los  logaritmos  del  IPC. 


Ano 
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Resumen  y 
conclusiones 


1 .  Los  metodos  Box- Jenkins  y  VAR  para  pronosticos  economicos  son  opciones  respecto  de  los 
modelos  tradicionales  uniecuacionales  y  de  ecuaciones  simultaneas. 

2.  Para  pronosticar  valores  de  una  serie  de  tiempo,  la  estrategia  basica  de  Box-Jenkins  es  la  si- 
guiente: 

a)  Examine  primero  si  la  serie  es  estacionaria.  Esto  se  logra  al  calcular  la  funcion  de  auto- 
correlacion  (FAC)  y  la  funcion  de  autocorrelacion  parcial  (FACP),  o  mediante  un  analisis 
formal  de  raiz  unitaria.  Los  correlogramas  asociados  a  FAC  y  FACP  son,  con  frecuencia, 
buenas  herramientas  de  diagnostico  visual. 

b)  Si  la  serie  de  tiempo  es  no  estacionaria,  debe  diferenciarse  una  o  mas  veces  para  alcanzar 
la  estacionariedad. 

c)  Se  calculan  entonces  la  FAC  y  la  FACP  de  la  serie  de  tiempo  estacionaria  para  determinar 
si  la  serie  es  autorregresiva  pura,  del  tipo  de  promedios  moviles  puro,  o  una  mezcla  de  las 
dos.  Asi,  de  los  lineamientos  generales  de  la  tabla  22. 1,  se  determinan  los  valores  dep  y  q 
en  el  proceso  ARMA  que  se  va  a  ajustar.  En  esta  etapa,  el  modelo  ARMA(/x  q)  seleccio- 
nado  es  tentativo. 

d)  Entonces  se  estima  el  modelo  tentativo. 

e)  Se  examinan  los  residuos  de  este  modelo  tentativo  para  establecer  si  son  de  ruido  bianco. 
Si  lo  son,  el  modelo  tentativo  es  quizas  una  buena  aproximacion  al  proceso  estocastico 
subyacente.  Si  no  lo  son,  el  proceso  se  inicia  de  nuevo.  Por  consiguiente,  el  metodo  de 
Box-Jenkins  es  iterativo. 

/)  El  modelo  finalmente  seleccionado  sirve  para  pronosticar. 

3.  El  enfoque  VAR  para  pronosticos  considera  diferentes  series  de  tiempo  a  la  vez.  Las  caracte- 
risticas  que  distinguen  al  VAR  son  las  siguientes: 

a)  Es  un  sistema  simultaneo  en  el  sentido  de  que  todas  las  variables  se  consideran  endogenas. 

b )  En  la  elaboracion  de  modelos  VAR,  el  valor  de  una  variable  se  expresa  como  funcion 
lineal  de  los  valores  pasados  o  rezagados  de  esa  variable  y  de  todas  las  demas  variables 
incluidas  en  el  modelo. 

c)  Si  cada  ecuacion  contiene  el  mismo  numero  de  variables  rezagadas  en  el  sistema,  este  se 
estima  mediante  MCO  sin  recurrir  a  otros  metodos  asociados  a  sistemas,  como  el  metodo 
de  minimos  cuadrados  en  dos  etapas  (MC2E)  o  las  regresiones  aparentemente  no  relacio- 
nadas  (SURE). 

d)  Esta  simplicidad  en  la  elaboracion  de  modelos  VAR  puede  ser  su  desventaja.  En  vista  del 
limitado  numero  de  observaciones  disponibles  en  la  mayoria  de  los  analisis  economicos, 
la  introduccion  de  los  diversos  rezagos  de  cada  variable  puede  consumir  muchos  grados 
de  libertad.30 

e)  Si  hay  varios  rezagos  en  cada  ecuacion,  no  siempre  es  facil  interpretar  cada  coeficiente, 
en  especial  si  se  alternan  los  signos  de  los  coeficientes.  Por  esta  razon,  en  la  elaboracion 
de  modelos  VAR  se  examina  la  funcion  de  impulso-respuesta  (FIR)  para  determinar  la 
forma  como  responde  la  variable  dependiente  ante  un  choque  administrado  a  una  o  mas 
ecuaciones  en  el  sistema. 

/)  Hay  mucha  discusion  y  controversia  sobre  la  superioridad  de  los  diversos  metodos  de  pro¬ 
nosticos.  Los  metodos  de  pronosticos  uniecuacionales,  de  ecuaciones  simultaneas,  Box- 
Jenkins  y  VAR  tienen  sus  defensores  como  tambien  sus  detractores.  Todo  lo  que  podemos 
decir  es  que  no  hay  un  metodo  que  por  si  mismo  sea  apropiado  para  todas  las  situaciones. 
De  ser  asi,  no  habria  necesidad  de  analizar  las  diversas  opciones.  Una  cosa  es  segura:  las 
metodologias  de  Box-Jenkins  y  VAR  ya  forman  parte  integral  de  la  econometria. 

4.  En  este  capitulo  tambien  estudiamos  una  clase  especial  de  modelos,  ARCH  y  GARCH,  par- 
ticularmente  utiles  en  el  analisis  de  las  series  de  tiempo  financieras,  como  precios  de  acciones, 


30  Los  partidarios  de  las  estadfsticas  bayesianas  creen  que  este  problema  se  puede  reducir.  Vease  R.  Litter- 
man,  "A  Statistical  Approach  to  Economic  Forecasting",  en  journal  of  Business  and  Economic  Statistics,  vol.  4, 
1986,  pp.  1-4. 
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tasas  de  inflation  y  tasas  de  cambio.  Una  caracteristica  sobresaliente  de  estos  modelos  es  que 
la  varianza  del  error  quiza  este  correlacionada  a  lo  largo  del  tiempo,  debido  al  fenomeno  de  la 
acumulacion  de  la  volatilidad.  Al  respecto,  tambien  senalamos  que,  en  muchos  casos,  una  d  de 
Durbin- Watson  significativa  puede  deberse  a  un  efecto  ARCH  o  GARCH. 

5.  Existen  variantes  de  los  modelos  ARCH  y  GARCH,  pero  no  los  consideramos  en  este  capitulo 
debido  a  restricciones  de  espacio.  Algunos  de  estos  otros  modelos  son  GARCH-M  (GARCH 
en  la  media),  TGARCH  (umbral  GARCH)  y  EGARCH  (GARCH  exponencial).  En  las  refe- 
rencias  hay  debates  sobre  estos  modelos.31 


Preguntas 

22.1.  /Cuales  son  los  metodos  mas  importantes  para  pronosticos  economicos? 

22.2.  /Cuales  son  las  principales  diferencias  entre  el  metodo  de  ecuaciones  simultaneas  y  el  de 
Box-Jenkins  para  pronosticos  economicos? 

22.3.  Esquematice  los  pasos  principales  relacionados  con  la  aplicacion  del  metodo  de  Box- 
Jenkins  para  pronosticos  economicos. 

22.4.  /Que  sucede  si  se  aplican  las  tecnicas  de  Box-Jenkins  a  series  de  tiempo  no  estaciona- 
rias? 

22.5.  /Que  diferencias  hay  entre  los  metodos  de  Box-Jenkins  y  VAR  para  pronosticos  econo¬ 
micos? 

22.6.  /En  que  sentido  es  ateorico  el  modelo  VAR? 

22.7.  “Si  el  objetivo  principal  es  el  pronostico,  VAR  lo  lograra.”  Evalue  criticamente  esta  afir- 
macion. 

22.8.  Como  el  numero  de  rezagos  que  se  va  a  introducir  en  un  modelo  VAR  puede  ser  un 
asunto  subjetivo,  /como  se  decide  cuantos  rezagos  deben  introducirse  en  una  aplicacion 
concreta? 

22.9.  Comente  la  siguiente  afirmacion:  “Box-Jenkins  y  VAR  son  los  ejemplos  mas  importantes 
de  medicion  sin  teoria”. 

22. 10.  /Cual  es  la  conexion,  de  existir,  entre  las  pruebas  de  causalidad  de  Granger  y  el  diseno  de 
modelos  VAR? 

Ejercicios  empfricos 

22.11.  Considere  los  datos  sobre  los  logaritmos  del  1PD  (ingreso  personal  disponible)  en  la 
section  21.1  (consulte  los  datos  reales  en  el  sitio  Web  del  libro).  Suponga  que  deseamos 
ajustar  un  modelo  ARIMA  apropiado  a  estos  datos.  Defina  los  pasos  que  implica  la  reali¬ 
zation  de  esta  labor. 

22.12.  Repita  el  ejercicio  22.1 1  para  los  datos  de  LGCP  (gasto  de  consumo  personal)  presenta- 
dos  en  la  section  21.1  (una  vez  mas,  consulte  los  datos  reales  en  el  sitio  Web  del  libro). 

22.13.  Repita  el  ejercicio  22.1 1  para  los  datos  de  LUE  (utilidades  empresariales). 

22.14.  Repita  el  ejercicio  22.1 1  para  los  datos  de  LDIVIDENDOS. 

22.15.  En  la  section  13.9  explicamos  el  criterio  de  information  de  Schwarz  para  determinar  la 
longitud  del  rezago.  /.Como  utilizaria  este  criterio  para  determinar  la  longitud  apropiada 
del  rezago  en  un  modelo  VAR? 

22.16.  Con  los  datos  sobre  LGCP  y  LIPD  de  la  section  21.1  (consulte  los  datos  reales  en  el  sitio 
Web  del  libro),  desarrolle  un  modelo  bivariado  VAR  de  1-1970  a  IV-2006.  Con  este  modelo 
pronostique  los  valores  de  estas  variables  para  los  cuatro  trimestres  de  2007  y  compare  los 
valores  de  pronostico  con  los  valores  reales  que  se  proporcionan  en  el  conjunto  de  datos. 


31  Vease  Walter  Enders,  Applied  Econometric  Time  Series,  2a.  ed.,  John  Wiley  &  Sons,  Nueva  York,  2004.  Para 
un  analisis  orientado  a  la  aplicacion,  vease  Dimitrios  Asteriou  y  Stephen  Hall,  Applied  Econometrics:  A  Modern 
Approach,  edicion  revisada,  Palqrave/Macmillan,  Nueva  York,  2007,  capftulo  14. 
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22.17 .  Repita  el  ejercicio  22.16  con  los  datos  sobre  LDIVIDENDOS  y  LUE. 

*22.18.  Utilice  cualquier  paquete  estadlstico  y  estime  la  funcion  de  impulso-respuesta  para  un 
periodo  hasta  de  ocho  rezagos  para  el  modelo  VAR  que  desarrollo  en  el  ejercicio  22. 16. 

22.19.  Repita  el  ejercicio  22.18  para  el  modelo  VAR  desarrollado  en  el  ejercicio  22.17. 

22.20.  Consulte  los  resultados  de  la  regresion  VAR  de  la  tabla  22.4.  De  las  diversas  pruebas  F 
hechas  en  las  tres  regresiones  que  alii  se  dieron,  /que  puede  decir  sobre  la  naturaleza  de 
la  causalidad  en  las  tres  variables? 

22.21.  Continuando  con  el  ejercicio  20.20,  /puede  suponer  la  razon  por  la  cual  los  autores  deci- 
dieron  expresar  las  tres  variables  en  el  modelo  en  forma  de  cambios  porcentuales  en  lugar 
de  usar  las  variables  en  su  forma  de  nivel?  ( Sugerencia :  Estacionariedad.) 

22.22.  Con  los  datos  para  Canada  proporcionados  en  la  tabla  17.5,  investigue  si  M\  y  R  son 
variables  aleatorias  estacionarias.  Si  no  es  asi,  /estan  cointegradas?  Muestre  los  calculos 
necesarios. 

22.23.  Continue  con  los  datos  de  la  tabla  17.5.  Ahora  considere  el  siguiente  modelo  sencillo  de 
la  demanda  de  dinero  en  Canada: 

In  Mi,  =  /b  +  /+  InPIB,  +  /I3  InR,  +  ut 

a)  /.Como  interpretaria  los  parametros  de  este  modelo? 

b)  Obtenga  los  residuos  a  partir  de  este  modelo  y  determine  si  existe  algun  efecto 
ARCH. 

22.24.  Consulte  el  modelo  ARCH(3)  dado  en  (22.11.4).  Con  los  mismos  datos  calculamos  el 
siguiente  modelo  ARCH(l): 

fi?=  0.00000078  +  0.3737m?_! 

t  =  (7.5843)  (10.2351) 

R2  =  0.1397  d=  1.9896 

/.Como  elegiria  entre  ambos  modelos?  Muestre  los  calculos  necesarios. 

22.25.  La  tabla  22.7  contiene  datos  sobre  las  tasas  de  interes  de  los  pagares  del  Tesoro  a  tres 
(TB3M)  y  a  seis  meses  (TB6M),  del  1  de  enero  de  1982  a  marzo  de  2008,  para  un  total 
de  3 1 5  observaciones  mensuales.  Los  datos  se  encuentran  en  el  sitio  Web  del  libro. 

a)  Trace  la  grafica  de  las  dos  series  de  tiempo  en  el  mismo  diagrama.  /Que  observa? 

b)  Realice  un  analisis  formal  de  raiz  unitaria  para  ver  si  estas  series  de  tiempo  son  esta¬ 
cionarias. 

c)  /Estan  cointegradas  las  dos  series  de  tiempo?  /.Como  sabe?  Realice  los  calculos  ne¬ 
cesarios. 

d )  /Que  significado  economico  tiene  cointegracion  en  este  contexto?  Si  las  dos  series  no 
estan  cointegradas,  /que  repercusiones  economicas  tiene  esto? 

e)  Si  desea  estimar  un  modelo  VAR,  por  ejemplo,  con  cuatro  rezagos  de  cada  variable, 
/es  necesario  usar  las  primeras  diferencias  de  las  dos  series  o  puede  realizar  el  analisis 
de  las  dos  series  en  su  forma  de  nivel?  Justifique  su  respuesta. 

22.26.  Ejercicio  en  close:  Elija  un  indice  del  mercado  de  valores  y  obtenga  datos  diarios  sobre  el 
valor  del  indice  elegido  para  cinco  anos  con  el  proposito  de  averiguar  si  el  indice  bursatil 
se  caracteriza  por  efectos  ARCH. 

22.27.  Ejercicio  en  close:  Recopile  datos  sobre  las  tasas  de  inflacion  y  desempleo  en  Estados 
Unidos  correspondientes  a  los  periodos  trimestrales  de  1980  a  2007  y  desarrolle  y  estime 
un  modelo  VAR  para  las  dos  variables.  Para  calcular  la  tasa  de  inflacion,  utilice  el  IPC 
(indice  de  precios  al  consumidor),  y  la  tasa  de  desempleo  civil  para  calcular  la  tasa  de 
desempleo.  Es  preciso  prestar  mucha  atencion  a  la  estacionariedad  de  estas  variables. 
Ademas,  averigiie  si  una  variable  causa,  segun  Granger,  la  otra  variable.  Presente  todos 
sus  calculos. 


Opcional. 


Apendice 


Revision  de  algunos 
conceptos  estadisticos 

En  este  apendice  se  introducen,  en  forma  muy  general,  algunos  conceptos  estadisticos  que  apa- 
recen  en  este  texto.  El  analisis  no  es  riguroso  y  no  se  presentan  pruebas  debido  a  que  existen 
diversos  libros  de  estadistica,  excelentes,  que  hacen  muy  bien  ese  trabajo.  Algunos  de  esos  libros 
se  mencionan  al  final  del  apendice. 


A.  1  Operadores  de  sumatoria  y  de  producto 

Con  la  letra  mayuscula  griega  E  (sigma)  se  indica  la  sumatoria.  Asi, 

n 

Y'Xj  —X\+X2-\ - \rX„ 

i= 1 

Algunas  de  las  propiedades  mas  importantes  del  operador  de  sumatoria  E  son 

n 

1.  ^  k  —  nk,  donde  k  es  una  constante.  Asi,  Et= l  3  =  4-3=  12. 

i=  1 

2.  YTi=\  kxi  —  k  E”=i  xh  donde  k  es  una  constante. 

3.  E/=i(fl  +  t>xi)  —  na  +  b  EE  xi>  donde  ay  b  son  constantes  y  se  emplean  las  propiedades 
1  y  2  anteriores. 

4-  EE<E  +  .y;)  =  EE  +  EE  yt- 

El  operador  de  sumatoria  tambien  se  amplia  a  sumas  multiples.  Asi,  EE>  el  operador  de  doble 
sumatoria,  se  define  como 

n  m  n 

^  ^  ^  ^  A/ j  —  /  H-  Xf2  +  *  *  *  H“  -^im) 
i=l  7=1  i=l 

=  (*11  +  x2\  H - h  H"  (Xi2  +  X22  + - h  Xn2 ) 

+  •  •  •  +  (X\m  +  X2m  +  •  •  •  +  Xnm) 

Algunas  de  las  propiedades  de  EE  son: 

1.  EE  EyL  i  xij  —  EJLi  EE  xij’  es  decir,  el  orden  en  el  cual  se  realice  la  doble  sumatoria  es 
intercambiable. 

2-  E,= i  Ey=i  xty  =  E,=i  *»•  E/=i  yj  ■ 
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3-  2_,i=i  z2j=\(xu  +  yij)  —  E;= i  E/=i  xij  +  5_,/=i  E/=i  yij- 

4-  [EL i  *<]2  =  ELi  *,2  +  2 ELL1  E-=w  w  =  ELi *?  +  2  E,<, * 

El  operador  de  producto  n  se  define  como 


<j  *ixj. 


~\xi  —  X\  ■  X2  ■  ■  ■  xn 


1  =  1 


Por  tanto, 


[Xi  —  xi  ■  x2  -x3 

i=  1 


A. 2  Espacio  muestral,  puntos  muestrales  y  sucesos 


El  conjunto  de  todos  los  resultados  posibles  de  un  experimento  aleatorio,  o  al  azar,  se  denomina 
poblacion  o  espacio  muestral,  y  cada  miembro  de  este  espacio  muestral  se  denomina  punto 
muestral.  Por  tanto,  en  el  experimento  de  lanzar  dos  monedas,  el  espacio  muestral  consta  de 
estos  cuatro  resultados  posibles:  HH,  HT,  TH y  TT,  donde  HH  significa  una  cara  en  el  primer  lan- 
zamiento  y  nuevamente  una  cara  en  el  segundo,  HT  significa  una  cara  en  el  primer  lanzamiento 
y  una  cruz  en  el  segundo,  y  asi  sucesivamente.  Cada  uno  de  los  sucesos  anteriores  constituye  un 
punto  muestral. 

Un  suceso  es  un  subconjunto  del  espacio  muestral.  Asi,  si  A  denota  la  ocurrencia  de  una  cara 
y  de  una  cruz,  entonces,  de  los  posibles  resultados  anteriores,  solo  dos  pertenecen  a  A,  a  saber: 
HT y  TH.  En  este  caso,  A  constituye  un  suceso.  En  forma  similar,  la  ocurrencia  de  dos  caras  en  el 
lanzamiento  de  dos  monedas  es  un  suceso.  Se  dice  que  los  sucesos  son  mutuamente  excluyen- 
tes  si  la  ocurrencia  de  uno  impide  la  ocurrencia  de  otro.  Si  en  el  ejemplo  anterior  ocurre  HH,  no 
es  posible  la  ocurrencia  del  suceso  HT  al  mismo  tiempo.  Decimos  que  los  sucesos  son  exhaus- 
tivos  (colectivamente)  si  se  agotan  todos  los  resultados  posibles  de  un  experimento.  Asi,  en  el 
ejemplo,  los  sucesos  a)  dos  caras,  b)  dos  cruces  y  c)  una  cruz  y  una  cara  agotan  todos  los  resul¬ 
tados  posibles;  por  tanto,  son  sucesos  exhaustivos  (colectivamente). 

A.  3  Probabilidad  y  variables  aleatorias 

Probabilidad 

Sea  A  un  suceso  en  un  espacio  muestral.  Sea  P(A )  la  probabilidad  del  suceso  A,  es  decir,  la  pro- 
porcion  de  veces  que  el  suceso  A  ocurrira  en  ensayos  repetidos  de  un  experimento.  En  forma 
alterna,  en  un  total  de  n  posibles  resultados  igualmente  probables  de  un  experimento,  si  in  de  ellos 
son  favorables  a  la  ocurrencia  del  suceso  A,  se  define  la  razon  m/n  como  la  frecuencia  relativa 
de  A.  Para  valores  grandes  de  n,  esta  frecuencia  relativa  constituye  una  muy  buena  aproximacion  de 
la  probabilidad  de  A. 

Propiedades  de  la  probabilidad 

P(A)  es  una  funcion  de  valor  real1  y  tiene  estas  propiedades: 

1.  0  <  P(A)  <  1  para  todo  A. 

2.  Sid,  B,  C, ...  constituye  un  conjunto  de  sucesos  exhaustivo,  entonces P(A  +  B+  C-\ - )=  1, 

donde  A  +  B  +  C  significa  A  o  B  o  C,  y  asi  sucesivamente. 

3.  Sid,  B,  C,  ...  son  sucesos  mutuamente  excluyentes,  entonces 

P(A  +  B  +  C  +  ■  ■  ■)  =  P(A)  +  P(B)  +  P(C)  +  ■■■ 


1  Una  funcion  cuyo  dominio  y  rango  son  subconjuntos  de  numeros  reales  se  conoce  generalmente  como 
funcion  real  de  una  variable  real.  Para  mayores  detalles,  vease  Alpha  C.  Chiang,  Fundamental  Methods  of 
Mathematical  Economics,  3a.  ed.,  McGraw-Hill,  1984,  capftulo  2. 
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EJEMPLO  1 

Considere  el  experimento  de  lanzar  un  dado  numerado  del  1  al  6.  El  espacio  muestral  consta 
de  los  resultados  1,  2,  3,  4,  5  y  6.  Por  consiguiente,  estos  seis  sucesos  agotan  la  totalidad  del 
espacio  muestral.  La  probabilidad  de  obtener  cualquiera  de  estos  numeros  es  1/6,  pues  son  seis 
resultados  igualmente  probables  y  cada  uno  tiene  igual  probabilidad  de  aparecer.  Como  1,  2, 

3,  4,  5  y  6  forman  un  conjunto  exhaustivo  de  sucesos,  P(1  +  2  +  3  +  4  +  5  +  6)  =  1,  donde  1, 

2,  3,...  significa  la  probabilidad  del  numero  1  o  del  numero  2  o  del  numero  3,  etcetera.  Como 

1,  2,...,  6  son  sucesos  mutuamente  excluyentes  en  donde  dos  numeros  no  pueden  obtenerse 
simultaneamente,  P(1  +  2  +  3  +  4  +  5  +  6)  =  P(1 )  +  P( 2)  +  •  •  ■  +  P( 6)  =  1 . 

Variables  aleatorias 

Una  variable  cuyo  valor  esta  determinado  por  el  resultado  de  un  experimento  al  azar  se  denomina 
variable  aleatoria  (va).  Las  variables  aleatorias  se  denotan  usualmente  por  las  letras  mayusculas 
X,  Y,  Z,  y  asi  sucesivamente,  y  los  valores  que  toman  se  denotan  por  letras  minusculas,  x,  v,  z, 
etcetera. 

Una  variable  aleatoria  puede  ser  discreta  o  continua.  Una  va  discreta  adquiere  solo  un  nu¬ 
mero  finito  (o  infinito  contable)  de  valores.2  Por  ejemplo,  al  lanzar  dos  dados,  cada  uno  numerado 
del  1  al  6,  si  definimos  la  variable  aleatoria  X  como  la  suma  de  los  numeros  que  aparecen  en  los 
dados,  entonces  X toma  uno  de  los  siguientes  valores:  2,  3,  4,  5,  6,  7,  8,  9,  10,  1 1  o  12;  por  tanto, 
se  trata  de  una  variable  aleatoria  discreta.  Una  va  continua,  por  su  parte,  es  una  variable  que 
puede  tomar  cualquier  valor  dentro  de  un  intervalo  de  valores.  Asi,  la  estatura  de  un  individuo  es 
una  variable  continua  — por  ejemplo,  en  el  intervalo  entre  152.4  y  165.1  centimetros —  y  puede 
adquirir  cualquier  valor,  segun  la  precision  de  la  medicion. 

A. 4  Function  de  densidad  de  probabilidad  (FDP) 


Funcion  de  densidad  de  probabilidad 
de  una  variable  aleatoria  discreta 

Sea  X una  va  discreta  que  toma  valores  diferentes  x\,  x%  . . .  x„.  Entonces,  la  funcion 

/(x)  —  P(X  —  Xi)  para  i  —  1,2 

=  0  para  x  yf  x,- 

se  denomina  funcion  de  densidad  de  probabilidad  discreta  (FDP)  de  X,  donde  P(X  —  x,)  sig¬ 
nifica  la  probabilidad  de  que  la  va  discreta  X  tome  el  valor  de  x,. 

EJEMPLO  2 

En  un  lanzamiento  de  dos  dados  la  variable  aleatoria  X,  la  suma  de  los  numeros  que  aparecen 
en  dos  dados,  puede  tomar  uno  de  los  1 1  valores  mostrados.  La  FDP  de  esta  variable  se  muestra 
como  sigue  (vease  tambien  la  figura  A.1): 

x=  2  3  4  5  6  7  8  9  10  11  12 

(  ^)  (  36)  (  36)  (  36)  (  36)  (  36)  (  36)  (  36)  (  36)  (  36)  (35) 

Estas  probabilidades  se  verifican  facilmente.  En  total,  hay  36  resultados  posibles,  de  los  cuales 
uno  es  favorable  al  numero  2,  dos  son  favorables  al  numero  3  (pues  la  suma  de  3  se  presenta 
como  1  en  el  primer  dado  y  2  en  el  segundo  dado,  0  2  en  el  primer  dado  y  1  en  el  segundo 
dado),  y  asf  sucesivamente. 

( continua ) 

2  Hay  un  analisis  sencillo  de  la  nocion  de  conjuntos  contables  infinitos  en  R.  C.  D.  Allen,  Basic  Mathematics, 
Macmillan,  Londres,  1964,  p.  104. 
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EJEMPLO  2 

(i continuation ) 


FIGURA  A.1  Funcion  de  densidad  de  la  variable  aleatoria  discreta  del  ejemplo  2. 


fix) 


Funcion  de  densidad  de  probabilidad 
de  una  variable  aleatoria  continua 

Sea  X  una  va  continua.  Entonces,  se  dice  que  / (x)  es  la  FDP  de  X  si  se  satisfacen  las  siguientes 
condiciones: 


fix)  >  0 
/(x)  dx  —  1 

/(x)  dx  —  P(a  <  x  <  b) 

donde  f(x)dx  se  conoce  como  el  elemento  probabilistico  (la  probabilidad  asociada  a  un  pequeno 
intervalo  de  una  variable  continua)  y  donde  P(a  <  X  <  b)  significa  la  probabilidad  de  que  X  se 
encuentre  en  el  intervalo  a  a  b.  Geometricamente,  tenemos  la  figura  A. 2. 

Para  una  va  continua,  en  contraste  con  una  va  discreta,  la  probabilidad  de  que  X tome  un  valor 
especifico  es  cero;3  la  probabilidad  para  tal  variable  solo  se  mide  sobre  un  rango  o  intervalo  dado, 
como  (a,  b )  que  aparece  en  la  figura  A. 2. 


EJEMPLO  3  Considere  la  siguiente  funcion  de  densidad: 

f(x)  =  ^-x2  0  <  x  <  3 

Se  verifica  con  facilidad  que  f(x)  >  0  para  toda  X  en  el  rango  0  a  3  y  que  /03  ^ x2dx  =  1 .  ( Nota : 
La  integral  es  (Ax3|q)  =  1.)  Si  deseamos  evaluar  la  FDP  anterior  entre  0  y  1,  obtenemos 
Jq  lx2dx  =  (57X3  [ g )  =  X-  es  decir,  la  probabilidad  de  que  X  se  encuentre  entre  0  y  1  es  de 
1/27. 


FIGURA  A. 2 

Funcion  de  densidad  de 
una  variable  aleatoria 
continua. 


3  Nota:  f°  f{x)  dx  =  0. 
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Funciones  de  densidad  de  probabilidad  conjunta 

FDP  conjunta  discreta 

Sean Xy  Y dos  variables  aleatorias  discretas.  Entonces,  la  funcion 

f(x,y)  =  P{X  =  xy  Y  =  y) 

—  0  cuando  I^iy  Y  f  y 

se  conoce  como  funcion  de  densidad  de  probabilidad  conjunta  discreta  y  da  la  probabilidad 
(conjunta)  de  que  X  tome  el  valor  de  x  y  Y  tome  el  valor  de  y. 


EJEMPLO  4  La  siguiente  tabla  presenta  la  FDP  conjunta  de  las  variables  discretas  Xy  K 


X 

-2  0  2  3 

3  0.27  0.08  0.16  0 

Y 

6  0  0.04  0.10  0.35 


Esta  tabla  muestra  que  la  probabilidad  de  que  X  tome  el  valor  de  —2  mientras  simultaneamente 
Y toma  el  valor  de  3  es  0.27,  y  que  la  probabilidad  de  que  X  tome  el  valor  de  3  mientras  Y  toma 
el  valor  de  6  es  0.35,  y  asi  sucesivamente. 


Funcion  de  densidad  de  probabilidad  marginal 

En  relacion  con  fix,  y),f(x)  y  f(y)  se  denominan  funciones  de  densidad  de  probabilidad  indivi¬ 
duates  o  marginales.  Estas  FDP  marginales  se  obtienen  de  la  siguiente  manera: 

fix)  —  22  /(*  >  y)  FDP  marginal  de  X 

y 

fiy)  —  22  /(*>  y)  FDP  marginal  de  Y 

X 

donde,  por  ejemplo,  significa  la  suma  sobre  todos  los  valores  de  Y  y  significa  la  suma 
sobre  todos  los  valores  de  X. 


EJEMPLO  5  Considere  la  informacion  del  ejemplo  4.  La  FDP  marginal  de  X  se  obtiene  de  la  siguiente  manera: 

f(X  =  -2)  =  J2  f(x>  y )  =  °-27  +  0  =  °-27 

y 

f(x  =  0)  =  ^  y)  =  0.08  +  0.04  =  0.1 2 

Y 

f(x  =  2)  =  22  f(x'  V)  =  0-16  4-  0.1  0  =  0.26 

y 

f(x  =  3)  =  22  f(x,  y)  =  o  4-  0.35  =  0.35 

y 

Asimismo,  la  FDP  marginal  de  Y  se  obtiene  asf: 

f(y  =  3)  =  22  f(x'  V)  =  °-27  +  0  08  +  0.1 6  +  0  =  0.51 

X 

f(y=6)  =  22  f(x'  y)  =  0  +  0.04  +  0.1 0  +  0.35  =  0.49 

X 

Como  muestra  este  ejemplo,  para  obtener  la  FDP  marginal  de  X  sumamos  la  columna  de  nu- 
meros  y  para  obtener  la  FDP  marginal  de  Y  sumamos  la  fila  de  numeros.  Observe  que  f(x) 
sobre  todos  los  valores  de  X  es  1 ,  como  lo  es  f(y)  sobre  todos  los  valores  de  Y  (£por  que?). 
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FDP  conditional 

Como  mencionamos  en  el  capitulo  2,  en  el  analisis  de  regresion,  el  interes  con  frecuencia  es 
estudiar  el  comportamiento  de  una  variable  condicional  respecto  de  los  valores  de  otra  u  otras 
variables.  Para  esto  se  considera  la  FDP  condicional.  La  funcion 


f(x\y)  =  P{X  =  x\Y  =  y) 

se  conoce  como  FDP  condicional  de  X\  da  la  probabilidad  de  que  X  tome  el  valor  de  x  porque  Y 
asumio  el  valor  de  y.  En  forma  similar, 

f(y\x)  =  P(Y  =  y\X  =  x) 


lo  cual  da  la  FDP  condicional  de  Y. 

Las  FDP  condicionales  se  obtienen  de  la  siguiente  manera: 


Rx  |  y )  = 

/(v  \x)  = 


fix,  y) 

fiy ) 
f(x,y ) 
fix) 


FDP  condicional  de  X 

FDP  condicional  de  Y 


Como  muestran  las  expresiones  anteriores,  la  FDP  condicional  de  una  variable  se  expresa  como 
la  razon  de  la  FDP  conjunta  respecto  de  la  FDP  marginal  de  otra  variable  (condicionante). 


EJEMPLO  6  Continuamos  con  los  ejemplos  4  y  5  y  calculamos  las  siguientes  probabilidades  condicionales: 

f(v  _  _2  v  =  3) 

f(X  =  -2  I  Y  =  3)  =  f(Y-l) - “  =  0-27/°-51  =  0  53 

Observe  que  la  probabilidad  incondicional  f(X  =  —2)  es  0.27,  pero  si  Y  asume  el  valor  de  3,  la 
probabilidad  de  que  X  tome  el  valor  de  —2  es  0.53. 

f(X  =  2  |  Y  =  6)  =  ,7  2'  Y  ~  6)  =  0.1 0/0.49  =  0.20 

t(r  =  6) 

Observe  de  nuevo  que  la  probabilidad  incondicional  de  que  X  tome  el  valor  de  2  es  0.26,  la  cual 
es  diferente  de  0.20,  que  es  su  valor  si  Y  asume  el  valor  de  6. 


Independencia  estadfstica 

Dos  variables  aleatorias  X  y  Y  son  estadisticamente  independientes  si  y  solo  si 

fix,  y)  =  fix) fiv) 

es  decir,  si  la  FDP  conjunta  se  expresa  como  el  producto  de  las  FDP  marginales. 


EJEMPLO  7  Una  bolsa  contiene  tres  bolas  numeradas  1,  2  y  3.  Se  seleccionan  de  la  bolsa  dos  bolas  al  azar, 

con  reemplazo  (es  decir,  la  primera  bola  sacada  se  vuelve  a  poner  en  la  bolsa  antes  de  sacar  la 
segunda).  Sea  X  el  numero  de  la  primera  bola  sacada  y  Y  el  numero  de  la  segunda.  La  siguiente 
tabla  da  la  FDP  conjunta  de  X  y  Y. 


Apendice  A  Revision  de  algunos  conceptos  estadisticos  807 


EJEMPLO  7 

( continuation )  ^ 

1 
9 

1 
9 

1 
9 

Ahora  f(X  =  1  ,Y  =  1)  =  f(X  =  1)  =  1  (obtenido  mediante  la  suma  de  los  elementos  de  la 
primera  columna)  y  f(y  =  1)  =  3  (obtenido  mediante  la  suma  de  los  elementos  de  la  primera 
fila).  Como  en  este  ejemplo  f(X,Y)  =  f{X)f{Y),  podemos  decir  que  las  dos  variables  son  estadis- 
ticamente  independientes.  Con  facilidad  se  verifica  que,  para  cualquier  otra  combinacion  de  los 
valores  X  y  /de  la  tabla  anterior,  las  FDP  conjuntas  se  factorizan  en  FDP  individuales. 

Se  observa  que  las  variables  X  y  /  del  ejemplo  4  no  son  estadisticamente  independientes, 
pues  el  producto  de  las  dos  FDP  marginales  no  es  igual  a  la  FDP  conjunta.  ( /Voter :  Debe  cum- 
plirse  que  f(X,  Y)  =  f(X)f(Y)  en  todas  las  combinaciones  de  X  y  Y  si  las  dos  variables  han  de  ser 
estadisticamente  independientes.) 


1 

Y  2 
3 


X 


2  3 

1  1 

9  9 

1  1 

9  9 

l  T_ 

9  9 


FDP  conjunta  continua 

La  FDP/(x,  y)  de  dos  variables  continuas  X y  Yes  tal  que 


f(x,  y)  >  0 


f(x,  y )  dx  dy  —  1 


f(x,  y)  dx  dy  —  P(a  <x<b,c<y<d ) 


EJEMPLO  8 

Considere  la  siguiente  FDP: 

f(x,  y)  =  2  —  x  —  y 

Es  obvio  que  f(x,  y)  >  0.  Ademas,4 

0<x<'\;0<y<'\ 

f'/'v- 

La  FDP  marginal  de  X  y  de  Y  se  obtiene  como 

-  y)  dx  dy  =  1 

oOO 

f(x)=  f(x,  y)  dy 

J —OO 

FDP  marginal  de  X 

pOO 

f(y)  =  /  f{x,  y)  dx 

J —00 

FDP  marginal  de  / 

Nota:  La  expresion  (|y-  y2/2)|J  significa  que  la  expresion  entre  parentesis  debe  evaluarse  para  el  valor  del 
limite  superior  1  y  para  el  valor  del  limite  inferior  0;  el  ultimo  valor  se  resta  del  primero  para  obtener  el  valor 
de  la  integral.  Asi,  en  el  ejemplo  anterior,  los  limites  son  (|  —  2)  en  y  =  1  y  0  en  y  =  0,  de  lo  que  resulta  que 
el  valor  de  la  integral  es  igual  a  1 . 
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EJEMPLO  9 


Las  dos  FDP  marginales  de  la  FDP  conjunta  del  ejemplo  8  son  las  siguientes: 


f  w 


f(y) 


f  f(x,  y)dy  =  f 
Jo  Jo 


2y-xy-  y— 


(2-x-  y)dy 
3 

= - - x  0  <  x  <  1 
2  “  “ 


—  x  —  y)dx 


(l x-  xy- 


0  <  y  <  1 


Para  ver  si  las  dos  variables  del  ejemplo  8  son  estadfsticamente  independientes  debemos  de- 
terminar  si  f(x,  y)  =  f(x)f(y).  Como  (2  —  x  —  y)  ^  (|  —  x)(|  —  y),  podemos  decir  que  las  dos 
variables  no  son  estadfsticamente  independientes. 


A.  5  Caracterfsticas  de  las  distribuciones  de  probabilidad 


Una  distribucion  de  probabilidades  a  menudo  se  resume  en  terminos  de  algunas  de  sus  caracte¬ 
rfsticas,  conocidas  como  momentos  de  la  distribucion.  Dos  de  los  momentos  mas  comunes  son 

la  media,  o  valor  esperado,  y  la  varianza. 

Valor  esperado 

El  valor  esperado  de  una  va  discreta  X,  denotado  por  E(X),  se  define  de  la  siguiente  manera: 

E(X)  =  £*/(x) 

X 

donde  significa  la  suma  sobre  todos  los  valores  de  X  y  f(x)  es  la  FDP  (discreta)  de  X. 


EJEMPLO  10  Considere  la  distribucion  de  probabilidades  de  la  suma  de  dos  numeros  en  el  lanzamiento  de  dos 

dados  analizada  en  el  ejemplo  2  (figura  A.1).  Al  multiplicar  los  diversos  valores  de  X,  dados  alii 
por  sus  correspondientes  probabilidades,  y  sumar  sobre  todas  las  observaciones,  obtenemos: 

fW  =  2(3^)  +  3(i)  +  4(A) +  ...  + I2(i) 

=  7 

que  es  el  valor  promedio  de  la  suma  de  los  numeros  observada  en  un  lanzamiento  de  dos 
dados. 


EJEMPLO  11  Estime  E(X)  y  E(Y)  para  la  informacion  del  ejemplo  4.  Ya  vimos  que 

x  -2  0  2  3 

f(x)  0.27  0.12  0.26  0.35 

Por  consiguiente, 

£(X)  =  ^xf(x) 

=  (-2)(0.27)  +  (0)(0.1 2)  +  (2)(0.26)  +  (3)(0.35) 
=  1.03 
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EJEMPLO  11 

(i continuation ) 


En  forma  similar, 

y  3  6 

f(y)  0.51  0.49 

E(Y)  =  J2yf(y) 

Y 

=  (3)(0.51)  +  (6)(0.49) 
=  4.47 


El  valor  esperado  de  una  va  continua  se  define  como 


E(X) 


f 


xf{x)dx 


La  unica  diferencia  entre  este  caso  y  el  valor  esperado  de  una  va  discreta  es  que  el  sfmbolo  de 
sumatoria  se  reemplaza  por  el  sfmbolo  de  integral. 


EJEMPLO  12  Determinemos  el  valor  esperado  de  la  FDP  continua  del  ejemplo  3: 

cm-£ '(t)* 


_  9 
“  4 
=  2.25 


Propiedades  de  los  valores  esperados 

1.  El  valor  esperado  de  una  constante  es  la  constante  misma.  Asl,  si  b  es  una  constante, 
E(b)  =  b. 

2.  Si  a  y  b  son  constantes, 


E(aX  +  b)  =  aE(X)  +  b 

Esto  se  puede  generalizar.  Si X\,  A3, . .  . ,  XN  son  N  variables  aleatorias  y  a\,  «2,  •  ■  ■  «v  y  b  son 
constantes, 


E(a\X\  +  0.2X2  +  •  ■  ■  +  cinXn  +  b)  —  ci\E(X\)  +  fi^-EXA^)  +  ■  •  •  +  a^E{X^)  +  b 


3.  Si  A" y  Y  son  variables  aleatorias  independientes, 

E(XY)  =  E{X)E(Y) 


Es  decir,  la  esperanza  del  producto  AT  es  el  producto  de  las  esperanzas  individuals  de 
Xy  Y. 

Sin  embargo,  observe  que 


E(X) 

E(Y) 


aunque Xy  Y sean  independientes. 


E 
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4.  Si  X es  una  variable  aleatoria  con  FDP  f{x)  y  si  g(X)  es  cualquier  funcion  de  X,  entonces 
E[g{X)~\  —  y^g(JQ/(x)  siXes  discreta 


-f 


g(X)f  (x  )dx  si  X  es  continua 


Por  tanto,  si  g(X )  =  X2, 

E(X2)  =  £V/(X) 


f 


si  X  es  discreta 


x2f  (X)  dx  si  X  es  continua 


EJEMPLO  13 

Considere  la  siguiente  FDP: 

x  -2  12 

fix)  |  l  1 

Entonces, 

E(X)  =  -2(|)  +  1  (1)  +  2(|) 

5 

—  8 

y 

E(X2)  =  4(|)  +  l(l)+4(f) 

29 

—  8 

Varianza 

Sea  X  una  variable  aleatoria  y  sea  E(X)  —  //.  La  distribucion  o  dispersion  de  los  valores  de  X 
alrededor  del  valor  esperado  se  mide  por  la  varianza,  la  cual  se  define  como 


var(X)  —a\  —  E(X  —  /r)2 


La  raiz  cuadrada  positiva  de  ctJ-,  ax,  se  define  como  desviacion  estandar  de  X.  La  varianza  o  la 
desviacion  estandar  da  una  indicacion  de  que  tan  cercanos  o  dispersos  estan  los  valores  indivi- 
duales  de  X  respecto  del  valor  de  su  media. 

La  varianza  definida  anteriormente  se  calcula  de  la  siguiente  forma: 


var 


(X)  =  ^JX-M)7(x) 

X 

/oo 

(X  -  ix)2f(x)dx 

-oo 


si  X  es  una  va  discreta 


si  X  es  una  va  continua 


Por  convenience  de  calculo,  la  formula  de  la  varianza  anterior  se  expresa  tambien  como 

var(X)  =  a2  =  E(X  -  ji)2 
=  E(X2)  -  fjL2 
=  E(X2)  -  [E(X)f 

A1  aplicar  esta  formula  se  ve  que  la  varianza  de  la  variable  aleatoria  dada  en  el  ejemplo  13  es 

29  / 5  \2  207  o  o o 

8  ^  8  ^  64 
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EJEMPLO  14 


Determinemos  la  varianza  de  la  variable  aleatoria  del  ejemplo  3: 

var(X)  =  £(X2)  —  [f  (X)]2 


Ahora, 


Como  E (X) 


=  243/45 
=  27/5 


|  (ejemplo  12),  tenemos  al  final 

var(X)  =  243/45  -  (?)2 
=  243/720  =  0.34 


Propiedades  de  la  varianza 

1.  E(X  —  /i)2  —  E( X2)  —  /. i2,  como  ya  mencionamos. 

2.  La  varianza  de  una  constante  es  cero. 

3.  Si  a  y  b  son  constantes, 

var  (aX  +  b)  —  a2  var(X) 

4.  Si  Xy  7  son  variables  aleatorias  independientes, 

var(X  +  7)  =  var(X)  +  var  (7) 
var(X  -Y)  =  var(X)  +  var  (7) 

Esto  puede  generalizarse  a  mas  de  dos  variables. 

5.  Si  Xy  7  son  va  independientes  y  ay  b  son  constantes, 

var(aX  +  bY)  —  a 2  var(X)  +  b 2  var(7) 


Covarianza 

Sean  Xy  7  dos  va  con  medias  /iT  y  /iy,  respectivamente.  Entonces,  la  covarianza  entre  las  dos 
variables  se  define  como 

cov  (X,  7)  =  E{(X  -  /ix)(Y  -  ny)}  =  E(XY)  -  pxpy 

Se  observa  con  facilidad  que  la  varianza  de  una  variable  es  la  covarianza  de  dicha  variable  con 
ella  misma. 

La  covarianza  se  calcula  de  la  siguiente  manera: 


cov (x,  y)  =  ^2  -  -  ih)f(x’  y) 

y  x 

=  EE  XY f  (x ,  y )  -  pxtiy 
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EJEMPLO  15 


si  Xy  Y  son  variables  aleatorias  discretas  y 


cov(X,  Y)  = 


( X  -  fix)(Y  -  li  y) fix,  y)  dx  dy 
XY fix ,  y)  dx  dy  —  \ix  dy 


si  Xy  Y  son  variables  aleatorias  continuas. 


Propiedades  de  la  covarianza 

1 .  Si  Xy  Y  son  independientes,  su  covarianza  es  cero,  pues 

cov  {X,  Y)  =  E(XY)  -  iMxliy 


—  dx  dy  dx  dy 
=  0 


porque  E{XY)  =  E(X)E(Y)  =  dxdy 
cuando  Xy  Y son  independientes 


2. 


cov  ( a  +  bX,  c  +  dY)  —  bd  cov  (X,  Y) 
donde  a,b,cy  d  son  constantes. 


Determinemos  la  covarianza  entre  las  variables  aleatorias  discretas  X  y  Y  cuyas  FDP  conjun- 
tas  son  iguales  a  las  del  ejemplo  4.  Del  ejemplo  11,  ya  sabemos  que  /xx  =  £(X)  1.03  y  que 
pLy=  E(Y)  =  4.47. 

£(Xn  =  EEXKf(x'  /> 

y  * 

=  (— 2)(3)(0.27)  +  (0)(3)(0.08)  +  (2)(3)(0.1 6)  +  (3)(3)(0) 

+  (— 2)(6)(0)  +  (0)(6)(0.04)  +  (2)(6)(0.1 0)  +  (3)(6)(0.35) 

=  6.84 


Por  consiguiente. 


cov(X,  Y)  =  E(XY)-hxply 

=  6.84  —  (1 .03)(4.47) 
=  2.24 


Coeficiente  de  correlacion 

El  coeficiente  de  correlacion  (poblacional)  p  (rho)  se  define  como 

co v(X,Y)  _  cov  ( X,  Y) 

P  yj { var  (X)  var  ( 7) }  Wy 

Asi  definido,  p  es  una  medida  de  la  asociacion  lineal  entre  dos  variables  y  su  valor  se  sitiia  entre 
—  1  y  + 1 ,  donde  —  1  indica  una  perfecta  asociacion  negativa  y  + 1  indica  una  perfecta  asociacion 
positiva. 

De  la  formula  anterior  se  ve  que 


cov(X,  7)  =  paxav 
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EJEMPLO  16 

Estime  el  coeficiente  de  correlacion  para  la  informacion  del  ejemplo  4. 

De  las  FDPs  del  ejemplo  11  se  ve  con  claridad  que  ax  =  2.05  y  ay  =  1 .50.  Demostramos  ya 
que  la  cov(X,  Y)  =  2.24.  Por  consiguiente,  al  aplicar  la  formula  anterior,  estimamos  p  como 

2. 24/(2.05)0.50)  =  0.73. 

Varianzas  de  variables  correlacionadas 

Sean Xy  Y dos  va.  Entonces, 

var  (X  +  Y)  —  var  (X)  +  var  ( 7)  +  2  cov  (X,  Y) 

—  var(X)  +  var  (Y)  +  2  paxay 

var  (X  —  Y)  —  var  {X)  +  var  ( Y)  —  2  cov  (X,  Y) 

—  var(X)  +  var  (7)  —  2  paxay 

Sin  embargo,  si  Xy  Y  son  independientes,  la  cov(X,  Y)  es  cero,  en  cuyo  caso  la  var(X  +  Y)  y  la 
var(X  —  Y)  son  ambas  iguales  a  var(X)  +  var(7),  como  ya  mencionamos. 

Los  resultados  anteriores  pueden  generalizarse  de  la  siguiente  manera:  sea  Xw=i  Xj  —  X\  + 
X2+  ■■■  +  X„;  entonces  la  varianza  de  la  combination  lineal  X  es 

/  n  \  n 

var  1  xi  )  —  22  var  ^  22  22  cov 

V= 1  /  i=l  i<y 

n 

=  ^varX,  +2^^  p,ycr,cr7 

z=l  i  <7 

donde  es  el  coeficiente  de  correlacion  entre  X,  y  Xp  y  donde  ct,-  y  a,  son  las  desviaciones  es- 
tandar  de  X,  y  Xj. 

Por  tanto, 

\ar{X\  +  X2  +  X3)  —  varXi  +  varX2  +  varX3  +  2cov(Xi,  X2) 

+  2  cov  (Xi  ,  X3)  +  2  cov  (X2,  X3) 

—  var^!  +  varX2  +  varX3  +  2pi2o\a2 

+  2pi  3010-3  +  2p23a2a3 

donde  o1;  a2  y  <t3  son  las  desviaciones  estandar  de  Xu  X2  y  X3,  respectivamente,  y  donde  p\2  es 
el  coeficiente  de  correlacion  entre  X\  y  X2,  p13  entre  Xt  y  X3,  y  p2 3  entre  X2  y  X3. 

Esperanza  condicional  y  varianza  condicional 

Sea/(x,  y)  la  FDP  conjunta  de  las  variables  aleatorias  X y  Y.  La  esperanza  condicional  de  X,  dada 
Y  —  y,  se  define  como 

E(X\  Y  —  y)  —  y ~\/(x  ]  Y  =  y)  siXes  discreta 

X 

poo 

=  /  xf(x  \Y  —  y)dx  si  X  es  continua 

J  —  OO 

si  X  es  continua 
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donde  E(X  |  Y  —  y)  significa  la  esperanza  condicional  de  X  dada  Y  =  yy  dond e/(x  |  Y  —  y)  es  la 
FDP  condicional  de  X.  La  esperanza  condicional  de  Y,  E(X  \  Y  —  x)  sc  define  en  forma  similar. 

Esperanza  condicional 

Observe  que  E(X  \  Y)  es  una  variable  aleatoria  porque  es  una  funcion  de  la  variable  condicionante 
Y.  Sin  embargo,  E (X  \  Y  —  y),  donde  y  es  un  valor  especifico  de  Y,  es  una  constante. 

Varianza  condicional 

La  varianza  condicional  de  X  dada  Y  —  y  se  define  como 


var  {X\Y  — 


y)  =  E{[X-E(X\Y  =  y)]2 
J2lX-E(X\Y  =  y)]2f(x\ 

X 

/oo 

[X-E(X\Y  =  y)]2f(x 

-CO 


\Y  =  y} 

Y  —  y)  si  X  es  discreta 

|  Y  —  y)dx  si  Xes  continua 


Calcule  E{Y  \  X  =  2)  y  var(y  |  X  =  2)  para  los  datos  del  ejemplo  4. 

E(Y  \x  =  2)  =  J2  yf(Y  =  y\X=2) 

=  3  f(Y  =  3  |  X  =  2)  4-  6f(Y  =  6  |  X  =  2) 

=  3(0.1 6/0.26)  +  6(0.1 0/0.26) 

=  4.15 

Nota:  f(Y  =  3  |  X  =  2)  =  f(Y  =  3,  X  =  2 )/f(X  =  2)  =  0.16/0.26,  y 
f(Y  =  6  |X  =  2)  =  f(Y  =  6,  X  =  2)/f(X  =  2)  =  0.10)0.26,  por  lo  que 

var(K  |  X  =  2)  =  -  E(Y  \  X  =  2)]2/r(V'|  X  =  2) 

y 

=  (3  -  4.1 5)2(0.1 6/0.26)  +  (6  -  4.1 5)2(0.1 0/0.26) 
=  2.13 


Propiedades  de  la  esperanza  y  la  varianza  condicionales 

1.  Si  f(X)  es  una  funcion  de  X,  entonces  E{f{X)  \  X)  —  f{X)\  es  decir,  la  funcion  de  X  se 
comporta  como  una  constante  en  el  calculo  de  la  esperanza  condicional  sobre  X.  Por  tanto, 
[E  ( X 3 1  X)]  —  E  (X3);  esto  se  debe  a  que  si  conocemos  X,  tambien  conocemos  X2 . 

2.  Si  f(X)  y  g(X)  son  funciones  dedC  entonces 

E[f(X)Y  +  g(X)  |  X]  =  f(X)E(Y  |  X)  +  g(X) 

Por  ejemplo,  E [XY+  cX2 \  X]  —  XE(Y  \  X)  +  cX2,  donde  c  es  una  constante. 

3.  Sidfy  Y  son  indcpcndicntcs,  E(Y  X)  —  E(Y)\  es  decir,  si  X  y  Y  son  variables  aleatorias  inde- 
pendientes,  la  esperanza  condicional  de  Y,  dada  X,  es  la  misma  que  la  esperanza  incondicional 
de  Y. 
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4.  Ley  de  las  esperanzas  iteradas.  Resulta  interesante  observar  la  siguiente  relation  entre  la 
esperanza  incondicional  de  una  variable  aleatoria  Y  E(Y )  y  su  esperanza  conditional  basada 
en  otra  variable  aleatoria  X,  E(  Y  \  X): 

E{Y)  =  Ex[E{Y\X)} 

Lo  anterior  se  conoce  como  la  ley  de  las  esperanzas  iteradas,  que  en  el  presente  contexto 
establece  que  la  esperanza  marginal,  o  incondicional,  de  Y  es  igual  a  la  esperanza  de  su  espe¬ 
ranza  conditional;  el  simbolo  Ex denota  que  la  esperanza  se  calcula  sobre  los  valores  de  X.  En 
forma  sencilla,  esta  ley  enuncia  que  si  primero  obtenemos  E(Y  \  X)  como  una  funcion  de Xy 
toma  su  valor  esperado  sobre  la  distribution  de  los  valores  X,  obtenemos  E(Y),  la  esperanza 
incondicional  de  Y.  El  lector  puede  verificar  esto  con  los  datos  del  ejemplo  4. 

Una  implication  de  la  ley  de  esperanzas  iteradas  es  que  si  la  media  condicional  de  Y  dada  X 
(es  decir,  E[Y  \  X ])  es  cero,  la  media  (no  condicional)  de  Y tambien  es  cero.  Esto  se  desprende 
de  inmediato  porque  en  ese  caso 

E[E(Y\X)]  =  E[  0]  =  0 

5.  Si  Xy  Y  son  independientes,  var(y  |  X)  —  var(Y). 

6.  var(  Y )  =  £[var(E  I  X)]  +  var [E(Y  |  X)];  es  decir,  la  varianza  (incondicional)  de  Y es  igual  a  la 
esperanza  de  la  varianza  conditional  de  Y  mas  la  varianza  de  la  esperanza  condicional  de  Y. 


Momentos  superiores  de  las  distribuciones  de  probabilidad 

Aunque  la  media,  la  varianza  y  la  covarianza  son  las  medidas-resumen  mas  frecuentes  de  las 
FDP  univariadas  y  multivariadas,  en  ocasiones  requerimos  considerar  momentos  de  orden  mayor 
de  las  FDP,  como  los  momentos  tercero  y  cuarto.  Los  momentos  tercero  y  cuarto  de  una  FDP 
univariada  f(x)  alrededor  del  valor  de  su  media  (p.)  se  definen  como 

Tercer  momento:  E(X  —  /x)3 

Cuarto  momento:  E(X  —  /i)4 

En  general,  el  momento  r-csimo  alrededor  de  la  media  se  define  como 

r-esimo  momento:  E(X  —  /if 

El  tercero  y  cuarto  momentos  de  una  distribucion  sirven  a  menudo  para  estudiar  la  “forma”  de 
una  distribucion  de  probabilidades,  en  particular  su  asimetria,  S  (es  decir,  falta  de  simetria),  y  su 
apuntamiento  o  curtosis,  K  (es  decir,  altura  o  aplanamiento),  como  se  aprecia  en  la  figura  A.3. 
Una  medida  de  asimetria  se  define  como 

c  EiX-pf 
S ~  ^ 

tercer  momento  alrededor  de  la  media 
desviacion  estandar  elevada  al  cubo 

Una  medida  comun  de  curtosis  esta  dada  por 

K  =  E(X-p)4 

mx-pYf 

cuarto  momento  alrededor  de  la  media 


segundo  momento  elevado  al  cuadrado 
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FIGURA  A. 3 

a)  Asimetria; 

b)  curtosis. 


Las  FDP  con  valores  de  K  menores  que  3  se  denominan  platicurticas  (anchas  o  de  colas  cortas), 
y  las  que  tienen  valores  mayores  que  3  se  denominan  leptocurticas  (delgadas  o  de  colas  largas). 
Vea  la  figura  A. 3.  Una  FDP  con  un  valor  de  curtosis  de  3  se  conoce  como  mesocurtica,  cuyo 
ejemplo  principal  es  la  distribucion  normal.  (El  analisis  de  la  distribucion  normal  esta  en  la  sec- 
cion  A.6.) 

Mas  adelante  veremos  como  se  combinan  las  medidas  de  asimetria  y  curtosis  para  determinar 
si  una  variable  aleatoria  sigue  una  distribucion  normal.  Recuerde  que  el  procedimiento  de  prueba 
de  hipotesis,  seguido  en  las  pruebas  t  y  F,  parte  del  supuesto  (por  lo  menos  en  muestras  pequenas 
o  finitas)  de  que  la  distribucion  implicita  de  la  variable  (o  estadistico  muestral)  es  normal.  Por 
consiguiente,  es  muy  importante  averiguar  si  este  supuesto  se  cumple  en  aplicaciones  concretas. 


A.6 


Algunas  distribuciones  de  probabilidad  teoricas  importantes 


En  el  texto  se  hace  uso  extenso  de  las  siguientes  distribuciones  de  probabilidad. 


Distribucion  normal 

La  mas  conocida  de  todas  las  distribuciones  de  probabilidad  teoricas  es  la  distribucion  normal, 
cuya  forma  de  campana  es  familiar  para  quien  tenga  un  minimo  conocimiento  estadistico. 

Se  dice  que  una  variable  aleatoria  (continua)  X  esta  normalmente  distribuida  si  su  FDP  tiene 
la  siguiente  forma: 


fs/ln 


exp 


1  (x  -  /r)2 


f(x)  = 


2  a2 


—  OO  <  X  <  oo 
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FIGURA  A.4 

Areas  bajo  la  curva 
normal. 


donde  /i  y  a2,  conocidos  como  parametros  de  la  distribucion,  son  la  media  y  la  varianza  de  la 
distribucion,  respectivamente.  Las  propiedades  de  esta  distribucion  son  las  siguientes: 

1 .  Es  simetrica  alrededor  de  su  valor  medio. 

2.  Aproximadamente  68%  del  area  bajo  la  curva  normal  se  encuentra  entre  los  valores  dc  p  ±  a, 
alrededor  de  95%  del  area  se  encuentra  entre  p±  lay  alrededor  de  99.7%  del  area  se  encuen¬ 
tra  entre  p  ±  3a,  como  se  ve  en  la  figura  A.4. 

3.  La  distribucion  normal  depende  de  dos  parametros,  p  y  a2.  Por  tanto,  una  vez  especificados, 
podemos  encontrar  la  probabilidad  de  que  X  este  dentro  de  cierto  intervalo  mediante  la  FDP 
de  la  distribucion  normal.  Pero  esta  labor  se  aligera  considerablemente  al  consultar  la  tabla 
D.l  del  apendice  D.  Para  utilizar  esta  tabla,  convertimos  la  variable  dada  X  normalmente 
distribuida  con  media  p  y  a2  en  una  variable  Z  normal  estandarizada  mediante  la  siguiente 
transformacion: 


a 

Una  propiedad  importante  de  toda  variable  estandarizada  es  que  su  valor  medio  es  cero  y  su 
varianza  es  la  unidad.  Asi,  Z  tiene  media  cero  y  varianza  unitaria.  Al  sustituir  z  en  la  FDP  an¬ 
terior  obtenemos 


f(Z)  = 


que  es  la  FDP  de  la  variable  normal  estandarizada.  Las  probabilidades  en  el  apendice  D,  tabla 
D.l,  se  basan  en  esta  variable  normal  estandarizada. 

Por  convencion,  denotamos  una  variable  distribuida  normalmente  como 


N(p,a2) 

donde  ~  significa  “distribuido  como”,  N  significa  distribucion  normal  y  las  cantidades  en  los 
parentesis  son  los  dos  parametros  de  la  distribucion  normal,  a  saber:  la  media  y  la  varianza. 
Segun  esta  convencion. 


A( 0,  1) 

significa  que  X es  una  variable  normalmente  distribuida  con  media  cero  y  varianza  unitaria.  En 
otras  palabras,  es  una  variable  Z  normal  estandarizada. 
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Suponga  que  X  ~  N( 8,  4).  ,;Cual  es  la  probabilidad  de  que  X  tome  un  valor  entre  Xi  =  4  y  X2  = 
12?  Para  calcular  la  probabilidad  requerida,  obtenemos  los  valores  Z  como 


Z 


1  = 


Z2  = 


4-8 
2  = 

12-8 

2 


-2 


=  +2 


Ahora,  de  la  tabla  D.1  observamos  que  Pr(0  <  Z  <  2)  =  0.4772.  Entonces,  por  simetrfa,  tenemos 
Pr(-2  <  Z  <  0)  =  0.4772.  Por  consiguiente,  la  probabilidad  requerida  es  0.4772  +  0.4772  = 
0.9544.  (Figura  A.4.) 


EJEMPLO  19  iC  ual  es  la  probabilidad  de  que,  en  el  ejemplo  anterior,  X  exceda  12? 

Esta  probabilidad  es  la  misma  de  que  Z  exceda  2.  De  la  tabla  D.1,  es  obvio  que  esta  probabi¬ 
lidad  es  (0.5  -  0.4772)  o  0.0228. 


4.  Sea  X\  ~  N(fi  1,  a,2)  y  X2  ~  N(/a2,  cr| )  y  suponga  que  son  independientes.  Considere  ahora 
la  combinacion  lineal 


Y  =  aXx  +  bX2 


donde  ay  b  son  constantes.  Entonces  se  demuestra  que 

Y  ~  +  biii),  (a2<r2  +  £2cr22)] 


Este  resultado,  que  establece  que  una  combinacion  lineal  de  variables  normalmente  distribui- 
das  tambien  tiene  distribution  normal,  se  generaliza  facilmente  a  una  combinacion  lineal  de 
mas  de  dos  variables  normalmente  distribuidas. 

5.  Teorema  central  del  limite.  Scan  X,  X2,  .  .  .  ,Xn  n  variables  aleatorias  independientes,  las 
cuales  tienen  la  misma  FDP  con  media  =  /x  y  varianza  =  o2.  Sea  X  —  X, / n  (es  decir,  la 
media  muestral).  Entonces,  a  medida  que  n  aumenta  indefinidamente  (es  decir,  n  — >  oo); 

1  ~nL,  — ) 

n^oo  y  n  ) 

Es  decir,  X  se  acerca  a  la  distribucion  normal  con  media  /i  y  varianza  n2  jn.  Observe  que  este 
resultado  se  cumple  sin  importar  la  forma  de  la  FDP.  Como  resultado,  se  deduce  que 


X-n 

o/s/n 


N{0,  1) 


Es  decir,  Z  es  una  variable  normal  estandarizada. 

6.  Los  momentos  tercero  y  cuarto  de  la  distribucion  normal  alrededor  del  valor  de  la  media  son 
los  siguientes: 

Tercer  momento:  E(X  —  /x)3  =  0 

Cuarto  momento:  E(X  —  fi)4  —  3cr4 

Nota:  Todos  los  momentos  elevados  a  potencias  impares  alrededor  del  valor  de  la  media  de 
una  variable  normalmente  distribuida  son  cero. 

7.  Como  resultado,  y  segun  las  medidas  de  asimetrla  y  curtosis  ya  analizadas,  para  una  FDP  nor¬ 
mal  tenemos  una  asimetria  =  0  y  curtosis  =  3;  es  decir,  una  distribucion  normal  es  simetrica  y 
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mesocurtica.  Por  consiguiente,  una  prueba  simple  de  normalidad  es  determinar  si  los  valores 
calculados  de  asimetria  y  curtosis  se  apartan  de  las  normas  de  0  y  3.  Esta  es,  en  realidad,  la 
logica  de  la  prueba  de  normalidad  de  Jarque-Bera  (JB)  estudiada  en  el  texto: 


JB  =  n 


-52 

6 


24 


(5.12.1) 


donde  S  significa  asimetria  y  K  curtosis.  Segun  la  hipotesis  nula  de  normalidad,  JB  esta  distri- 
buida  como  un  estadistico  ji  cuadrada  con  2  gl. 

8.  La  media  y  la  varianza  de  una  variable  aleatoria  normalmente  distribuida  son  independientes, 
en  el  sentido  de  que  la  primera  no  es  una  funcion  de  la  segunda. 

9.  Si  Xy  Y  estan  distribuidas  normalmente  de  manera  conjunta,  son  independientes  si  y  solo  si 
la  covarianza  entre  ellas  [es  decir,  cov(X,  Y )]  es  cero.  (Consulte  el  ejercicio  4.1.) 


Distribucion  x2  (ji  cuadrada) 

Sean  Z\,  Z2, . . . ,  Z*  variables  normales  estandarizadas  independientes  (es  decir,  variables  norma- 
les  con  media  cero  y  varianza  unitaria).  Asi,  se  dice  que  la  cantidad 

Z  =  EZ? 

i=i 

sigue  la  distribucion  x2  con  k  grados  de  libertad  (gl),  donde  el  termino  gl  significa  el  numero 
de  cantidades  independientes  en  la  suma  anterior.  Una  variable  distribuida  como  ji  cuadrada  se 
denota  por  /2,  donde  el  subindice  k  indica  los  gl.  Geometricamente,  la  distribucion  ji  cuadrada 
aparece  en  la  figura  A. 5. 

Las  propiedades  de  la  distribucion  x2  son  las  siguientes: 

1.  Como  indica  la  figura  A. 5,  la  distribucion  x2  es  una  distribucion  asimetrica;  el  grado  de  la 
asimetria  depende  de  los  gl.  Cuando  los  gl  son  comparativamente  pocos,  la  distribucion  esta 
muy  sesgada  hacia  la  derecha;  pero  a  medida  que  aumenta  el  numero  de  gl,  la  distribucion  es 
cada  vez  mas  simetrica.  De  hecho,  para  gl  por  encima  de  100,  la  variable 

72F—  V(2*-l) 

puede  tratarse  como  una  variable  normal  estandarizada,  donde  k  son  los  gl. 


FIGURA  A.5 

Funcion  de  densidad 
de  la  variable  x2- 


fix2) 


0 
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2.  La  media  de  la  distribucion  ji  cuadrada  es  k  y  su  varianza  es  2k,  donde  k  son  los  gl. 

3.  Si  Z\  y  Z2  son  dos  variables  ji  cuadrada  independientes  con  k\  y  kj  gl,  la  suma  Z\  +  Z2  es  tam- 
bien  una  variable  ji  cuadrada  con  gl  =  k\  +  k2. 


EJEMPLO  20  ,;Cual  es  la  probabilidad  de  obtener  un  valor  x2  de  40  o  superior,  si  los  gl  son  20? 

Como  muestra  la  tabla  D.4,  la  probabilidad  de  obtener  un  valor  x2  de  39.9968  o  mayor 
(20  gl)  es  0.005.  Por  consiguiente,  la  probabilidad  de  obtener  un  valor  x2  de  40  es  menor  que 
0.005,  probabilidad  un  tanto  baja. 


Distribucion  f  de  Student 

Si  Z\  es  una  variable  normal  estandarizada  [es  decir,  Z\  ~  ;V(0,  1)]  y  otra  variable  Z2  sigue  la 
distribucion  ji  cuadrada  con  k  gl  y  esta  distribuida  independientemente  de  Z\,  entonces  la  variable 
definida  como 


V( Z2/k ) 

_  ZxJk 
~  JTi 

sigue  la  distribucion  t  de  Student  con  k  gl.  Una  variable  distribuida  t  se  designa  con  frecuencia 
como  4,  donde  el  subindice  k  denota  los  gl.  Geometricamente,  la  distribucion  t  se  muestra  en  la 
figura  A.  6. 

Las  propiedades  de  la  distribucion  t  de  Student  son  las  siguientes: 

1.  Como  indica  la  figura  A. 6,  la  distribucion  t,  lo  mismo  que  la  distribucion  normal,  es  simetrica, 
pero  es  mas  plana  que  la  normal.  Sin  embargo,  a  medida  que  aumentan  los  gl,  la  distribucion 
t  se  aproxima  a  la  distribucion  normal. 

2.  La  media  de  la  distribucion  t  es  cero  y  su  varianza  es  k/(k  —  2). 

La  distribucion  t  esta  tabulada  en  la  tabla  D.2. 


EJEMPLO  21  Si  gl  =  1  3,  ^cual  es  la  probabilidad  de  obtener  un  valor  t  (a)  de  3  o  mas,  ( b )  de  alrededor  de  — 3 

o  mas  pequeno  y  (c)  de  1 1|  de  alrededor  de  3  o  superior,  donde  |  f  |  significa  el  valor  absoluto  (es 
decir,  sin  tomar  en  cuenta  el  signo)  de  f? 

De  la  tabla  D.2,  las  respuestas  son  (a)  alrededor  de  0.005,  ( b )  alrededor  de  0.005  debido  a  la 
simetrla  de  la  distribucion  t  y  (c)  alrededor  de  0.01  =  2(0.005). 


FIGURA  A.6 

Distribucion  t  de  Student 
para  grados  de  libertad 
seleccionados. 
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FIGURA  A. 7 

Distribution  F  para  diver- 
sos  grados  de  libertad. 


Distribucion  F 

Si  Z\  y  Z2  son  variables  ji  cuadrada  distribuidas  en  forma  independiente  con  k\  y  k2  gl,  respecti- 
vamente,  la  variable 


Zi/h 

Z2/k2 


sigue  la  distribucion  F  (de  Fisher)  con  k\  y  k2  gl.  Una  variable  que  sigue  una  distribucion  F  se 
denota  por  donde  los  subindices  indican  los  gl  asociados  con  las  dos  variables  Z,  y  donde 
k\  son  los  gl  del  numerador  y  k2  los  gl  del  denominador.  En  la  figura  A. 7  se  muestra  geometrica- 
mente  la  distribucion  F. 

La  distribucion  F  tiene  las  siguientes  propiedades: 

1.  A1  igual  que  la  distribucion  ji  cuadrada,  la  distribucion  F  esta  sesgada  hacia  la  derecha.  Pero 
puede  demostrarse  que,  a  medida  que  aumentan  k\  y  k2,  la  distribucion  F  se  acerca  a  la  distri¬ 
bution  normal. 

2.  El  valor  de  la  media  de  una  variable  con  distribucion  F  es  k2/(k2  —  2),  el  cual  esta  definido 
para  k2  >  2  y  su  varianza  es 

2k\{k\  +k2  —  l) 
h  (k2  -  2)2 (k2  -  4) 

definida  para  k2>  4. 

3.  El  cuadrado  de  una  variable  aleatoria  con  distribucion  t  con  k  gl  sigue  una  distribucion  F  con 
1  y  k  gl.  Simbolicamente, 


ti  =  F 


1  ,k 


EJEMPLO  22  Si  ki  =  1 0  y  k2  =  8,  £cual  es  la  probabilidad  de  obtener  un  valor  F  (a)  de  3.4  o  mayor  y  ( b )  de 

5.8  o  mayor? 

Como  muestra  la  tabla  D.3,  estas  probabilidades  son  (a)  aproximadamente  0.05  y  (b)  aproxi- 
madamente  0.01 . 
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4.  Si  el  numero  de  gl  del  denominador,  &2,  es  relativamente  alto,  se  cumple  la  siguiente  relacion 
entre  las  distribuciones  F  y  ji  cuadrada: 

hF  ~xl i 

Es  decir,  para  un  numero  de  gl  del  denominador  relativamente  grande,  los  gl  del  numerador 
multiplicados  por  el  valor  F  equivalen  aproximadamente  a  un  valor  ji  cuadrada  con  los  gl  del 
numerador. 


EJEMPLO  23  Sean  =  20  y  ^  =  120.  El  valor  Fcntico  a  5%  para  estos  gl  es  1.48.  Por  consiguiente,  /qf  = 

(20)(1 .48)  =  29.6.  De  la  distribucion  ji  cuadrada  para  20  gl,  el  valor  crltico  ji  cuadrada  a  5%  es 
alrededor  de  31 .41 . 


A  proposito,  observe  que,  como  para  un  numero  grande  de  gl  las  distribuciones  t,  ji  cuadrada  y 
F  se  aproximan  a  la  distribucion  normal,  estas  tres  se  conocen  como  distribuciones  relacionadas 
con  la  distribucion  normal. 


Distribucion  binomial  de  Bernoulli 

Se  dice  que  una  variable  aleatoria  Asigue  una  distribucion  de  Bernoulli  (en  honor  del  matematico 
suizo)  si  su  funcion  de  densidad  de  probabilidad  (FDP),  o  de  masa,  es: 

P(X  =  0)  =  1  -  p 
P(X=  1  )=p 


donde  p,0  <p  <  1,  es  la  probabilidad  de  que  algun  suceso  sea  un  “exito”,  como  la  probabilidad 
de  que  caiga  cara  en  un  lanzamiento  de  moneda.  Para  tal  variable, 

E(X)  =  [1  x  p{X  =  1)  +  0  x  P(X  =  0  )]=p 
var  (X)  =  pq 

donde  q  —  (1  —  p),  es  decir,  la  probabilidad  de  un  “fracaso”. 


Distribucion  binomial 

Esta  distribucion  es  la  generalizacion  de  la  distribucion  de  Bernoulli.  Sea  n  el  numero  de  intentos 
independientes,  cuyos  resultados  son  un  “exito”  con  una  probabilidad  p  y  un  “fracaso”  con  una 
probabilidad  q  =  (1  —  p).  Si  X  representa  el  numero  de  exitos  en  n  intentos,  se  dice  que  X  sigue 
una  distribucion  binomial  cuya  FDP  es: 

f(X)  =  (”  )/’x(l  —  p)n  x 

donde  x  representa  el  numero  de  exitos  en  n  intentos  y  donde 

/«\  =  n\ 

)  xl(n  —  x)l 

donde  n\  se  lee  como  n  factorial,  lo  cual  significa  n(n  —  1  ){n  —  2)...  1. 

La  distribucion  binomial  es  de  dos  parametros,  n  y  p.  Para  dicha  distribucion, 


E(X)  —  np 

var(X)  =  np(l  —  p)  —  npq 
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Por  ejemplo,  si  usted  lanza  una  moneda  100  veces  y  desea  saber  la  probabilidad  de  obtener  60 
caras,  debe  colocar  p  —  0.5,  n  —  100  y  x  =  60  en  la  formula  anterior.  Existen  rutinas  de  calculo 
para  evaluar  tales  probabilidades. 

Puede  observar  que  la  distribucion  binomial  es  una  generalization  de  la  distribucion  de  Ber¬ 
noulli. 

Distribution  de  Poisson 

Se  dice  que  una  variable  aleatoria  X  tiene  distribucion  de  Poisson  si  su  FDP  es: 

e~kXx 

f(X)— -  parax  =  0,  1,  2, . . . ,  X  >  0 

x! 

La  distribucion  de  Poisson  depende  de  un  solo  parametro,  X.  Una  caracteristica  distintiva  de  la 
distribucion  de  Poisson  es  que  su  varianza  es  igual  a  su  valor  esperado,  que  es  X.  O  sea, 

E(X)  =  var(X)  =  1 

Con  el  modelo  de  Poisson,  como  vimos  en  el  capitulo  sobre  modelos  de  regresion  no  lineal,  se 
construyen  modelos  de  fenomenos  raros  o  poco  frecuentes,  como  el  numero  de  llamadas  recibi- 
das  en  un  lapso  de  5  minutos,  o  el  numero  de  multas  por  rebasar  el  limite  de  velocidad  recibidas 
en  el  transcurso  de  una  hora,  o  el  numero  de  patentes  registradas  por  una  compania  a  lo  largo  de 
un  ano. 


A.  7  Inferencia  estadistica:  estimacion 


En  la  seccion  A.6  consideramos  diversas  distribuciones  de  probabilidad  teoricas.  A  menudo  co- 
nocemos  o  estamos  dispuestos  a  suponer  que  una  variable  aleatoria  X  sigue  una  distribucion  de 
probabilidades  particular,  pero  no  conocemos  el  valor  del  (los)  parametro(s)  de  la  distribucion. 
Por  ejemplo,  si  X  sigue  una  distribucion  normal,  quiza  deseemos  conocer  el  valor  de  sus  dos 
parametros,  a  saber:  la  media  y  la  varianza.  Para  estimar  las  incognitas,  el  procedimiento  usual 
es  suponer  que  tenemos  una  muestra  aleatoria  de  tamano  n  de  la  distribucion  de  probabilidades 
conocida  y  con  la  information  muestral  estimar  los  parametros  desconocidos.5  Esto  se  conoce 
como  problema  de  estimacion.  En  esta  seccion  consideramos  este  problema  con  mayor  detalle. 
El  problema  de  estimacion  se  divide  en  dos  categorias:  estimacion  puntual  y  estimacion  por 
intervalos. 

Estimacion  puntual 

Para  establecer  las  ideas,  sea  X  una  variable  aleatoria  con  FDP/(x;  6),  donde  6  es  el  parametro  de 
la  distribucion  (para  simplificar  el  analisis,  suponemos  solo  un  parametro  desconocido;  el  anali- 
sis  se  generaliza  facilmente).  Suponga  que  conocemos  la  forma  funcional;  es  decir,  conocemos 
la  FDP  teorica,  como  la  distribucion  t,  pero  no  el  valor  de  6.  Por  consiguiente,  obtenemos  una 
muestra  aleatoria  de  tamano  n  para  esta  FDP  conocida  y  luego  elaboramos  una  funcion  de  va- 
lores  muestrales  tal  que 

e  —  /(x  i,x2,  ...,x„) 

proporciona  una  estimacion  del  verdadero  6.  6  se  conoce  como  un  estadistico  o  estimador,  y  un 
valor  numerico  particular  que  tome  el  estimador,  como  una  estimacion.  Observe  que  6  puede 


5  Sean  X-\,  X2,  .  .  .  ,  Xn  n  variables  aleatorias  con  FDP  conjunta  f(x  1,  X2,  .  .  . ,  xn).  Si  escribimos 

f(x  1  ,x2,...,xn)=  f(xi  )f(x2)-  -  f  (x„) 

donde  f(x)  es  la  FDP  comun  de  cada  X,  se  dice  que  xi,  x2,  .  .  . ,  xn  constituyen  una  muestra  aleatoria  de  ta¬ 
mano  n  de  una  poblacion  con  FDP  t(xn). 
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tratarse  como  variable  aleatoria  porque  es  una  funcion  de  la  informacion  muestral.  9  proporciona 
una  regia  o  formula  que  indica  la  forma  de  estimar  el  verdadero  9.  Asi,  si 

-  1 

9  —  —  (xi  +  x2  +  ■  ■  ■  +  xn)  —  X 
n 

donde  X  es  la  media  muestral,  entonces  X  es  un  estimador  del  verdadero  valor  de  la  media,  es 
decir,  /x.  Si  en  un  caso  especifico  X  —  50,  esto  proporciona  una  estimacion  de  /x.  El  estimador 
9  obtenido  antes  se  conoce  como  estimador  puntual  porque  proporciona  solo  una  estimacion 
(puntual)  de  9. 

Estimacion  por  intervalos 

En  lugar  de  obtener  solo  una  estimacion  puntual  de  9,  suponga  que  obtenemos  dos  estimaciones 
de  9  al  construir  dos  estimadores  9\(x\,  x2,  •  •  • ,  xn )  y  d2(xi,  x2, . . . ,  x„),  y  se  dice  con  alguna  con¬ 
fianza  (es  decir,  probabilidad)  que  el  intervalo  entre  9\  y  02  incluye  el  verdadero  9.  Por  tanto,  en 
la  estimacion  por  intervalos,  en  contraste  con  la  estimacion  puntual,  se  proporciona  un  intervalo 
de  posibles  valores  dentro  de  los  cuales  se  encuentra  el  verdadero  9. 

El  concepto  clave  implicito  en  la  estimacion  por  intervalos  es  la  nocion  de  muestreo,  0  de 
distribucion  de  probabilidades,  de  un  estimador.  Por  ejemplo,  puede  demostrarse  que  si  una 
variable  X  esta  normalmente  distribuida,  entonces  la  media  muestral  X  tambien  esta  normal- 
mente  distribuida  con  media  =  /i  (la  verdadera  media)  y  varianza  =  a2tn,  donde  n  es  el  tamano 
de  la  muestra.  En  otras  palabras,  la  distribucion  muestral,  0  de  probabilidad,  de  un  estimador  X 
es  X  ~  N(n,  a1  In).  Como  resultado,  si  construimos  el  intervalo 

a 

X±2  — 

■Jn 

y  decimos  que  hay  una  probabilidad  de  aproximadamente  0.95,  0  95%,  de  que  intervalos  como 
este  incluyan  la  verdadera  /x,  estamos  construyendo  un  estimador  por  intervalos  de  /x.  Observe 
que  el  intervalo  anterior  es  aleatorio,  pues  se  basa  en  X,  la  cual  variara  de  muestra  en  muestra. 

En  general,  en  la  estimacion  por  intervalos  construimos  dos  estimadores  9\  y  §2,  ambos  fun- 
ciones  de  los  valores  muestrales  de  X,  de  forma  que 

Pr  (§1  <  9  <  §2)  —  l  —  01  0  <  a  <  1 

Es  decir,  podemos  plantear  que  la  probabilidad  es  1  —  a  de  que  el  intervalo  de  6\  a  d2  contenga 
el  verdadero  9.  Este  intervalo  se  conoce  como  intervalo  de  conflanza  de  tamano  1  —  a  para  9, 
con  1  —  a  como  coeficiente  de  confianza.  Si  a  —  0.05,  entonces  1  —  a  —  0.95,  lo  cual  significa 
que  si  construimos  un  intervalo  de  confianza  con  un  coeficiente  de  confianza  de  0.95,  entonces 
en  construcciones  repetidas  como  esta,  resultantes  de  un  muestreo  repetido,  acertaremos  95  de 
cada  100  veces  si  sostenemos  que  el  intervalo  contiene  el  verdadero  9.  Cuando  el  coeficiente 
de  confianza  es  0.95,  se  dice  con  frecuencia  que  se  tiene  un  intervalo  de  confianza  a  95%.  En 
general,  si  el  coeficiente  de  confianza  es  1  —  a,  se  dice  que  se  tiene  un  intervalo  de  confianza  a 
100(1  —  a)%.  Observe  que  a  se  conoce  como  nivel  de  significancia,  0  probabilidad  de  cometer 
un  error  tipo  I.  Analizamos  este  tema  en  la  seccion  A. 8. 

EJEMPLO  24 

Suponga  que  la  distribucion  de  las  estaturas  de  los  hombres  en  una  poblacion  esta  normalmente 
distribuida  con  media  =  /x  pulgadas  y  a  =  2.5  pulgadas  (6.35  centimetres).  Una  muestra  de 
100  hombres  de  esta  poblacion  obtenida  al  azar  tuvo  una  estatura  promedio  de  67  pulgadas 
(1  70.18  centimetres).  Establezca  un  intervalo  de  confianza  a  95%  para  la  estatura  media  (=  /x) 
para  la  poblacion  en  su  conjunto. 

Como  ya  mencionamos,  X  ~  N(/x,  a2 / n)  en  este  caso  se  convierte  en  X  ~  N(/x,  2.52/100). 
En  la  tabla  D.  1  se  ve  que 

X  -  1 .96  ( 1  <  /x  <  X  +  1 .96-^= 

\sfnj  Jr 
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EJEMPLO  24 

(continuation) 

cubre  95%  del  area  bajo  la  curva  normal.  Por  consiguiente,  el  intervalo  anterior  proporciona  un 
intervalo  de  confianza  a  95%  para  /z.  Al  reemplazar  los  valores  dados  de  X,  ay  n  obtenemos  el 
siguiente  intervalo  de  confianza  a  95%: 

66.51  <  /z  <  67.49 

En  mediciones  repetidas,  como  esta,  los  intervalos  asf  establecidos  incluyen  la  verdadera  /z  con 
una  confianza  de  95%.  Aquf  podemos  mencionar  un  punto  tecnico:  aunque  es  posible  decir 
que  la  probabilidad  de  que  el  intervalo  aleatorio  [X  ±  1.9 6(a/s/n)]  incluya  /z  es  de  95%,  no 
podemos  afirmar  que  hay  una  probabilidad  de  95%  de  que  el  intervalo  particular  (66.51,  67.49) 
incluya  /z.  Una  vez  fijado  este  intervalo,  la  probabilidad  de  que  incluya  /z  es  de  0  o  de  1 .  Lo  que 
podemos  decir  es  que  si  construimos  100  intervalos  como  este,  95  de  los  100  intervalos  inclui- 
ran  la  verdadera  /z;  no  podemos  garantizar  que  un  intervalo  particular  necesariamente  incluya 
a  /z. 

Metodos  de  estimacion 

En  terminos  generales,  existen  tres  metodos  de  estimacion  de  parametros:  1)  minimos  cuadrados 
(MC),  2)  maxima  verosimilitud  (MV)  y  3)  metodo  de  los  momentos  (MOM),  y  su  extension,  el 
metodo  de  los  momentos  generalizado  (MMG).  Se  ha  dedicado  mucho  tiempo  a  ilustrar  el  me¬ 
todo  de  MC.  En  el  capitulo  4  presentamos  el  metodo  de  MV  dentro  del  contexto  de  la  regresion. 
Pero  el  metodo  tiene  un  numero  mucho  mayor  de  aplicaciones. 

La  idea  central  de  MV  es  la  funcion  de  verosimilitud.  Para  ilustrar  lo  anterior,  suponga  que 
la  variable  aleatoria  X  tiene  una  FDP  f(X,  9)  que  depende  de  un  solo  parametro  9.  Conocemos  la 
FDP  (por  ejemplo,  la  de  Bernoulli  o  la  binomial),  pero  no  el  valor  del  parametro.  Suponga  que 
obtenemos  una  muestra  aleatoria  de  n  valores  X.  La  FDP  conjunta  para  estos  n  valores  es: 

g(x\,x2,  ...,x„;9) 

Como  es  una  muestra  aleatoria,  escribimos  la  anterior  FDP  conjunta  como  el  producto  de  la  FDP 
individual  de  la  siguiente  forma: 

g(x\,x 2,  ...,x„;9)  =  f(x i;  9)f(x2;  9)---  f(xn;  9) 

La  FDP  conjunta  tiene  una  doble  interpretacion.  Si  se  conoce  9,  la  interpretamos  como  la  proba¬ 
bilidad  conjunta  de  observar  los  valores  dados  de  las  muestras.  Por  otra  parte,  podemos  conside- 
rarla  una  funcion  de  9  para  los  valores  dados  de  xi,  x2,  .  .  .  ,  xn.  En  esta  ultima  interpretacion,  la 
FDP  se  conoce  como  funcion  de  verosimilitud  (FV)  y  se  expresa  como: 

L(9;  x\,x2, . .  .,x„)  —  f(x i;  9)f(x2;  9)---  f(x„;  9) 

Observe  el  papel  inverso  que  desempena  9  en  la  funcion  de  densidad  de  probabilidad  conjunta  y 
en  la  funcion  de  verosimilitud. 

El  estimador  MV  de  9  es  el  valor  de  9  que  maximiza  la  funcion  de  verosimilitud  (muestra), 
L.  Por  conveniencia  matematica  se  suele  tomar  el  log  de  la  funcion  de  verosimilitud,  el  cual  se 
conoce  como  funcion  logaritmica  de  verosimilitud  (log  L).  Segun  las  reglas  de  calculo  para  la 
maximizacion,  se  diferencia  la  funcion  logaritmica  de  similitud  respecto  de  la  variable  descono- 
cida,  y  la  derivada  asi  obtenida  se  iguala  a  cero.  El  valor  resultante  del  estimador  se  llama  estima¬ 
dor  de  maxima  verosimilitud.  Se  puede  aplicar  la  condicion  de  segundo  orden  de  maximizacion 
con  el  objeto  de  asegurar  que  el  valor  obtenido  sea  en  efecto  el  valor  maximo. 

En  caso  de  que  haya  mas  de  un  parametro  desconocido,  se  diferencia  la  funcion  logaritmica 
de  verosimilitud  respecto  de  cada  parametro  desconocido,  se  igualan  los  resultados  a  cero  y  se 
resuelven  de  manera  simultanea  a  fin  de  obtener  los  valores  de  los  parametros  desconocidos.  Ya 
hicimos  algo  similar  para  el  modelo  de  regresion  multiple  (vease  el  capitulo  4,  apendice  4A.1). 
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EJEMPLO  25 


Suponga  que  la  variable  aleatoria  X  sigue  la  distribucion  de  Poisson  y  tiene  una  media  igual  a  X. 
Suponga  que  xi,  X2,  .  .  . ,  x„  son  variables  aleatorias  independientes  con  distribucion  de  Poisson 
y  cuya  media  es  X.  Suponga  que  queremos  calcular  el  estimador  MV  de  X.  La  funcion  de  vero- 
similitud  aquf  es: 


L  (*! ,  X2, . . .  /  xn;  X) 


e  ^-X*1  e  xXXl  e  xXXn 
Xi !  x2!  x„! 

e-nkx^xi 

Xi\x2\  -Xn\ 


La  anterior  es  mas  bien  una  expresion  diffcil  de  manejar,  pero  si  tomamos  su  logaritmo,  se  con- 
vierte  en: 


log  (X! ,  x2,  ■■■ ,  xn\  X)  =-  nX  +  ^2  */  log  X  -  log  c 

donde  log  c  =  x, !.  Al  diferenciar  la  expresion  anterior  respecto  de  X  obtenemos  (— n  +  x,)/X). 
Si  igualamos  esta  ultima  expresion  a  cero,  tenemos  Xm/  =  (^x,)/n=  X,  la  cual  es  el  estimador 
MV  del  parametro  desconocido  X. 


El  metodo  de  los  momentos 

Ya  dimos  un  vistazo  al  MOM  en  el  ejercicio  3.4  con  el  llamado  principio  de  analogia,  en  el  cual 
los  momentos  muestrales  intentan  duplicar  las  propiedades  de  sus  contrapartes  poblacionales.  El 
MMG,  una  generalization  del  MOM,  se  populariza  cada  vez  mas,  pero  no  en  su  nivel  basico.  Por 
tanto,  no  se  estudia  aqul. 

Las  propiedades  estadlsticas  deseables  se  encuentran  en  dos  categorlas:  propiedades  de  mues- 
tra  pequena  o  muestra  finita  y  propiedades  de  muestra  grande  o  asintoticas.  En  estos  dos  conjun- 
tos  de  propiedades  esta  implicita  la  nocion  de  que  un  estimador  tiene  una  distribucion  muestral 
o  de  probabilidad. 

Propiedades  de  las  muestras  pequenas 

Insesgamiento 

Se  dice  que  un  estimador  9  es  un  estimador  insesgado  de  0  si  el  valor  esperado  de  6  es  igual  al 
verdadero  Q\  es  decir, 

E(9)  =  9 
o 

E(6)  -0  =  0 

Si  no  se  mantiene  esta  igualdad,  decimos  que  el  estimador  es  sesgado  y  el  sesgo  se  calcula 
como 

sesgo(0)  —  E(9)  —9 

Desde  luego,  si  E(9)  —  0  — es  decir,  9  es  un  estimador  insesgado — ,  el  sesgo  es  cero. 

La  situacion  se  ilustra  geometricamente  en  la  figura  A. 8.  A  proposito,  observe  que  el  inses¬ 
gamiento  es  una  propiedad  del  muestreo  repetido,  no  de  una  muestra  dada:  mantenemos  fijo  el 
tamano  de  la  muestra,  obtenemos  diversas  muestras  y  cada  vez  conseguimos  una  estimacion  del 
parametro  desconocido.  Se  espera  que  el  valor  promedio  de  estas  estimaciones  sea  igual  al  ver¬ 
dadero  valor  si  el  estimador  es  insesgado. 

Varianza  minima 

Se  dice  que  9 \  es  un  estimador  de  varianza  minima  de  0  si  la  varianza  de  9\  es  menor  o  igual  que 
la  varianza  de  §2,  que  es  cualquier  otro  estimador  de  9.  La  figura  A. 9  muestra  geometricamente 
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FIGURA  A.8 

Estimadores  sesgados  e 
insesgados. 


FIGURA  A.9 

Distribution  de  tres 
estimadores  de  6. 


tres  estimadores  de  9,  a  saber:  9h  02  y  9%  y  sus  distribuciones  de  probabilidad.  Como  se  ve,  la 
varianza  de  02  es  menor  que  la  de  9\  o  la  de  02.  Por  tanto,  si  suponemos  solo  estos  tres  estimadores 
posibles,  en  este  caso  0\  es  un  estimador  de  varianza  minima.  Pero  observe  que  02  es  un  estimador 
sesgado  (dpor  que?). 

Mejor  estimador  insesgado  o  eficiente 

Si  Q\  y  62  son  dos  estimadores  insesgados  de  0  y  la  varianza  de  0\  es  menor  o  igual  que  la  varianza 
de  02,  entonces  0\  es  un  estimador  insesgado  de  varianza  minima,  mejor  insesgado  o  eficiente. 
Asi,  en  la  figura  A.9,  de  los  dos  estimadores  insesgados  0\  y  02, 0\  es  el  estimador  mejor  insesgado 
o  eficiente. 

Linealidad 

Se  dice  que  un  estimador  0  es  un  estimador  lineal  de  0  si  es  una  funcion  lineal  de  las  observacio- 
nes  muestrales.  Asi,  la  media  muestral  definida  como 

1  v-  1 

x  —  —  y  Xj  —  —  (xi  +  x2  +  ■  •  •  +  x„ ) 

n  n 

es  un  estimador  lineal  porque  es  una  funcion  lineal  de  los  valores  de  X. 

Mejor  estimador  lineal  insesgado  (MELI) 

Si  9  es  lineal,  es  insesgado  y  tiene  varianza  minima  en  la  clase  de  todos  los  estimadores  lineales  e 
insesgados  de  0,  se  denomina  el  mejor  estimador  lineal  insesgado,  o  MELI,  para  abreviar. 

Estimador  del  error  cuadratico  medio  (ECM)  mlnimo 
El  ECM  de  un  estimador  9  se  define  como 

ECM(0)  =  E(0  -  0)2 
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Esto  contrasta  con  la  varianza  de  9,  la  cual  se  define  como 

var(9)  =  E[§  -  E(§)]2 

La  diferencia  entre  los  dos  es  que  la  var (9)  mide  la  dispersion  de  la  distribucion  de  0  alrededor 
de  su  media  o  valor  esperado,  mientras  que  ECM(d)  mide  la  dispersion  alrededor  del  verdadero 
valor  del  parametro.  La  relacion  entre  los  dos  es  la  siguiente: 

ECM(d)  =  E(0  -  9)2 

=  E[9  -  E(9 )  +  E(9)  -  Of 

=  E[9  -  E(0)f  +  E[E(9)  -  9]2  +  2 E[9  -  E(9)][E(9)  -  9] 

—  E[9  —  -Z?(d)]2  +  E[E(9 )  —  9]2  porque  el  ultimo  termino  es  cero6 
=  var(d)  +  sesgo(d)2 
=  varianza  de  9  mas  el  sesgo  al  cuadrado 

Desde  luego,  si  el  sesgo  es  cero,  ECM(d)  =  var(d). 

El  criterio  del  ECM  minimo  consiste  en  seleccionar  un  estimador  cuyo  ECM  sea  el  menor  en 
un  conjunto  de  estimadores  comparables.  Pero  observe  que  aunque  se  encontrara  tal  estimador, 
hay  un  costo:  para  obtener  varianza  minima  quiza  sea  necesario  aceptar  algun  sesgo.  En  forma 
geometrica,  la  situacion  es  como  se  indica  en  la  figura  A.  10.  En  ella,  6b  esta  ligeramente  sesgado, 
pero  su  varianza  es  menor  que  la  del  estimador  insesgado  0\.  En  la  practica,  sin  embargo,  se  em- 
plea  el  criterio  del  ECM  minimo  cuando  el  criterio  de  mejor  insesgado  es  incapaz  de  producir 
estimadores  con  varianzas  mas  pequenas. 


Propiedades  de  las  muestras  grandes 

Con  frecuencia  sucede  que  un  estimador  no  satisface  una  o  mas  de  las  propiedades  estadisticas 
deseables  en  muestras  pequenas.  Pero,  a  medida  que  el  tamaiio  de  la  muestra  aumenta  indefini- 
damente,  el  estimador  posee  diversas  propiedades  estadisticas  deseables.  Estas  propiedades  se 
conocen  como  propiedades  de  muestra  grande,  o  propiedades  asintoticas. 


FIGURA  A.  10 

Equilibrio  entre  sesgo  y 
varianza. 


6  El  ultimo  termino  puede  escribirse  como  2{[E(6)]2  -  [E (6)]2  —  8E(§)  +  0E (0)}  =  0.  Observe  tambien  que 
E[E(9)  -  9]2  =  [£(0)  -  9]2,  pues  el  valor  esperado  de  una  constante  es  tan  solo  la  constante  misma. 
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Insesgamiento  asintotico 

Se  dice  que  un  estimador  9\  es  un  estimador  asintoticamente  insesgado  de  9  si 

lim  E{9„)  —  9 

n — >oo 

donde  6„  significa  que  el  estimador  esta  basado  en  un  tamano  de  muestra  n,  y  donde  lim  quiere 
decir  limite  significan  que  n  aumenta  de  manera  indefinida.  En  palabras,  6  es  un  estima¬ 

dor  asintoticamente  insesgado  de  6  si  su  valor  esperado,  o  media,  se  aproxima  al  verdadero  valor 
a  medida  que  el  tamano  de  la  muestra  crece  cada  vez  mas.  Como  ejemplo,  considere  la  siguiente 
medida  de  varianza  muestral  de  una  variable  aleatoria  X: 

S2  =  TXXi  ~  ^)2 

n 

Puede  demostrarse  que 


donde  a1  es  la  verdadera  varianza.  Es  obvio  que  en  una  muestra  pequena  S2  esta  sesgado,  pero, 
a  medida  que  n  aumenta  indefinidamente,  E(S2)  se  aproxima  a  la  verdadera  a2;  por  tanto,  este  es 
asintoticamente  insesgado. 

Consistencia 

Se  dice  que  9  es  un  estimador  consistente  si  se  aproxima  al  verdadero  valor  de  0  a  medida  que 
crece  el  tamano  de  la  muestra.  La  figura  A.  1 1  ilustra  esta  propiedad. 

En  esta  figura  tenemos  la  distribucion  de  9  basada  en  tamanos  muestrales  de  25,  50,  80  y 
100.  Como  muestra  la  figura,  9  basada  en  n  —  25  esta  sesgado,  pues  su  distribucion  muestral  no 
esta  centrada  en  el  verdadero  9.  Pero  a  medida  que  n  aumenta,  la  distribucion  de  6  no  solo  tiende  a 
centrarse  mas  en  9  (es  decir,  6  se  hace  menos  sesgada),  sino  que  su  varianza  tambien  se  reduce.  Si 
en  el  limite  (es  decir,  cuando  n  aumenta  indefinidamente)  la  distribucion  de  9  se  reduce  al  punto 
9,  es  decir,  si  la  distribucion  de  9  tiene  cero  dispersion  o  varianza,  se  dice  que  9  es  un  estimador 
consistente  de  9. 


E(S2)  = 


FIGURA  A.1 1 

Distribucion  de  9  a 
medida  que  aumenta  el 
tamano  de  la  muestra. 


e 


830  Apendice  A  Revision  de  algunos  conceptos  estadisticos 


Mas  formalmente,  se  dice  que  un  estimador  9  es  un  estimador  consistente  de  0  si  la  probabi- 
lidad  de  que  el  valor  absoluto  de  la  diferencia  entre  6  y  9  es  menor  que  <5  (una  pequena  cantidad 
positiva  arbitraria)  y  se  aproxima  a  la  unidad.  Simbolicamente, 

lim  P{\§  -9\  <  5}  =  1  <5  >  0 

n—>  oo 

donde  P  significa  probabilidad.  Esto  suele  expresarse  como 

plim  6  =  9 

n—>  oo 

donde  plim  significa  limite  de  la  probabilidad. 

Observe  que  las  propiedades  de  insesgamiento  y  consistencia  son  conceptualmente  muy  di- 
ferentes.  La  propiedad  de  insesgamiento  puede  mantenerse  para  cualquier  tamano  de  muestra, 
mientras  que  la  de  consistencia  es  estrictamente  una  propiedad  de  muestras  grandes. 

Una  condition  suficiente  para  la  consistencia  es  que  el  sesgo  y  la  varianza  tiendan  a  cero  a 
medida  que  el  tamano  de  la  muestra  aumenta  indefinidamente.7  Otra  condicion  suficiente  para  la 
consistencia  es  que  ECM(0)  tienda  a  cero  a  medida  que  n  aumenta  de  manera  indefinida.  (Para 
ECM(0),  consulte  el  analisis  anterior.) 


EJEMPLO  26  Sea  Xi,  X2,  .  .  .  ,  Xn  una  muestra  aleatoria  de  una  distribucion  con  media  n  y  varianza  a* 1.  De- 

muestre  que  la  media  muestral  X  es  un  estimador  consistente  de  /x. 

Por  estadistica  elemental  se  sabe  que  f(X)  =  /x  y  var(X)  =  o2 3/n.  Como  E(X)  =  /x  sin  importar 
el  tamano  de  la  muestra,  esta  es  insesgada.  Ademas,  a  medida  que  n  aumenta  indefinidamente, 
var(X)  tiende  a  cero.  Por  tanto,  X  es  un  estimador  consistente  de  /x. 


Es  importante  anotar  las  siguientes  reglas  sobre  el  limite  de  la  probabilidad. 

1.  Invarianza  (propiedad de  Slutsky) .  Si  9  es  un  estimador  consistente  de  9  y  si  h(9)  es  cualquier 
funcion  continua  de  9,  entonces 

plim  h(9)  —  h(9) 

n — ^00 

Esto  significa  que  si  9  es  un  estimador  consistente  de  9,  entonces  1  /9  es  tambien  un  estimador 
consistente  de  1/9  y  que  log(0)  es  tambien  un  estimador  consistente  de  log(0).  Observe  que 
esta  propiedad  no  se  cumple  para  el  operador  esperanza  E;  es  decir,  si  9  es  un  estimador  in- 
sesgado  de  9  [es  decir,  E(9 )  —  0],  no  es  cierto  que  1/0  sea  un  estimador  insesgado  de  1/0;  es 
decir,  E(l/9)  ±  \/E(9)^L  1/9. 

2.  Si  b  es  una  constante,  entonces 


plim  b  —  b 

n — >00 


Es  decir,  el  limite  de  la  probabilidad  de  una  constante  es  la  constante  misma. 

3.  Si  9\  y  02  son  estimadores  consistentes,  entonces 

plim  (0i  +  §2)  —  plim0!  +  plim02 
plim(0102)  =  plim  9]  plim02 


plim 


plim  0i 
plim  02 


7  Mas  tecnicamente,  lim^oo  E(^n)  =  9  y  lfmn->oo  var(0n)  =  0. 
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En  general,  las  ultimas  dos  propiedades  no  se  cumplen  para  el  operador  de  esperanza  E.  Por 
tanto,  E(Q\/Q2)  ^  f?  (#i)/(#2)-  En  forma  similar,  E(9l 62 )  ^  E(Q\)E(§2).  Sin  embargo,  si  8\  y  9 2 
estan  distribuidos  en  forma  independiente,  E(§i§2)  —  E(9i)E02),  como  ya  mencionamos. 

Eficiencia  asintotica 

Sea  8  un  estimador  de  6.  La  varianza  de  la  distribucion  asintotica  de  6  se  denomina  varianza 
asintotica  de  8.  Si  8  es  consistente  y  su  varianza  asintotica  es  menor  que  la  varianza  asintotica  de 
todos  los  demas  estimadores  consistentes  de  9,  9  se  llama  asintoticamente  eficiente. 

Normalidad  asintotica 

Se  dice  que  un  estimador  8  esta  normalmente  distribuido  asintoticamente  si  su  distribucion  mues- 
tral  tiende  a  aproximarse  a  la  distribucion  normal  a  medida  que  el  tamano  de  la  muestra  n  au- 
menta  de  manera  indefinida.  Por  ejemplo,  la  teoria  estadistica  muestra  que  si  X\,  Xi,  .  .  . ,  Xn  son 
variables  independientes  normalmente  distribuidas  con  la  misma  media  /z  y  la  misma  varianza 
ct2,  la  media  muestral  X  esta  tambien  normalmente  distribuida  con  media  /z  y  varianza  a2/n  en 
muestras  pequenas  y  en  muestras  grandes.  Pero  si  las  X,  son  independientes  con  media  /z  y  va¬ 
rianza  ct2,  pero  no  necesariamente  provienen  de  la  distribucion  normal,  entonces  la  media  mues¬ 
tral  X  esta  normalmente  distribuida  en  forma  asintotica  con  media  /z  y  varianza  <7 2/n;  es  decir,  a 
medida  que  el  tamano  de  la  muestra  n  aumenta  indefinidamente,  la  media  muestral  tiende  a  estar 
normalmente  distribuida  con  media  /z  y  varianza  a2/n.  Ese  es,  en  realidad,  el  teorema  central  del 
limite  ya  analizado. 


A.8 


Inferencia  estadistica:  pruebas  de  hipotesis 


La  estimacion  y  las  pruebas  de  hipotesis  constituyen  ramas  gemelas  de  la  inferencia  estadistica 
clasica.  Una  vez  examinado  el  problema  de  la  estimacion,  consideramos  brevemente  el  problema 
de  pruebas  de  hipotesis  estadisticas. 

El  problema  de  pruebas  de  hipotesis  puede  plantearse  de  la  siguiente  manera:  suponga  que 
tenemos  una  va  X  con  una  FDP  conocida  f(x;  9),  donde  8  es  el  parametro  de  la  distribucion. 
Despues  de  obtener  una  muestra  aleatoria  de  tamano  n,  obtenemos  el  estimador  puntual  9.  Como 
pocas  veces  conocemos  el  verdadero  9,  planteamos  la  pregunta:  /,es  “compatible”  el  estimador  9 
con  algun  valor  de  9  hipotetico,  por  ejemplo,  9  —  9*,  donde  9*  es  un  valor  numerico  especifico 
de  97  En  otras  palabras,  (',pudo  la  muestra  provenir  de  FDP  f(x;  9)  —  9*7  En  el  lenguaje  de  prue¬ 
bas  de  hipotesis,  6  —  9*  se  denomina  hipotesis  nula  (sostenida)  y  suele  denotarse  por  Hq.  La 
hipotesis  nula  se  prueba  contra  una  hipotesis  alternativa,  denotada  por  H\ ,  la  cual,  por  ejemplo, 
puede  plantear  que  9^9*.  ( Nota :  En  algunos  libros  de  texto,  Hq  y  H\  se  designan  por  H\  y  H2, 
respectivamente.) 

La  hipotesis  nula  y  la  hipotesis  alternativa  pueden  ser  simples  o  compuestas.  Una  hipotesis  se 
denomina  simple  si  especifica  el  (los)  valor(es)  del  (los)  parametro(s)  de  la  distribucion;  de  otra 
forma,  se  denomina  hipotesis  compuesta.  Asi,  si  N(fi,  ct2)  y  declaramos  que 

Hq:  /z=15  y  ct  =  2 


es  una  hipotesis  simple,  mientras  que 


Hq:  fx  —  15  y  ct  >  2 

es  una  hipotesis  compuesta,  porque  aqui  el  valor  de  ct  no  esta  especificado. 

Para  probar  la  hipotesis  nula  (es  decir,  para  probar  su  validez),  utilizamos  la  informacion 
muestral  con  el  fin  de  obtener  lo  que  se  conoce  como  estadistico  de  prueba.  Con  mucha  fre- 
cuencia,  este  estadistico  de  prueba  resulta  ser  el  estimador  puntual  del  parametro  desconocido. 
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Entonces,  tratamos  de  averiguar  la  distribution  muestral  o probabilistica  del  estadlstico  de  prueba 
y  utilizar  el  metodo  de  intervalos  de  confianza  o  de  pruebas  de  signiflcancia  para  probar  la 
hipotesis  nula.  Ilustraremos  este  procedimiento  mas  adelante. 

Para  fijar  las  ideas,  considere  de  nuevo  el  ejemplo  23,  relacionado  con  la  estatura  (X)  de  los 
hombres  en  una  poblacion.  Se  nos  informo  que 

Xi  ~  a2)  =  N(n,  2.52) 

X=61  n  =  100 


Supongamos  que 


Hq\  h  —  ii*  —  69 
Hpn  ^  69 

La  pregunta  es:  /.pudo  la  muestra  con  X  —  67,  el  estadlstico  de  prueba,  provenir  de  la  poblacion 
con  el  valor  de  la  media  de  69?  Por  intuition,  no  podemos  rechazar  la  hipotesis  nula  si  X  esta  “lo 
bastante  cerca”  de  //*;  de  lo  contrario,  podemos  rechazarla  en  favor  de  una  hipotesis  alternativa. 
Pero  £como  decidir  que  X  esta  “lo  bastante  cerca”  de  //*?  Podemos  adoptar  dos  metodos:  1)  in¬ 
tervalos  de  confianza  y  2)  pruebas  de  signiflcancia,  ambos  conducentes  a  conclusiones  identicas 
en  cualquier  aplicacion  especifica. 


Metodo  del  intervalo  de  confianza 

Como  Xj  ~  ;V( /i ,  cr2),  sabemos  que  el  estadlstico  de  prueba  X  esta  distribuido  como 

X  ~  N(n,  o2/n) 


Como  conocemos  la  distribucion  de  probabilidades  de  X,  6por  que  no  establecer,  por  ejemplo,  un 
intervalo  de  confianza  de  100(1  —  a)  para  /x  basada  en  X  y  ver  si  este  intervalo  incluye  //  =  //*? 
Si  es  asi,  no  rechazamos  la  hipotesis  nula;  si  no  lo  es,  la  rechazamos.  Asi,  si  a  —  0.05,  tendremos 
un  intervalo  de  confianza  a  95%,  y  si  este  intervalo  de  confianza  incluye  //*,  no  rechazamos  la 
hipotesis  nula,  pues  es  probable  que  95  de  100  intervalos  asi  construidos  incluyan  a  //*. 

El  procedimiento  es  el  siguiente:  como  X  ~  ;¥(//,  o2/n),  se  deduce  que 


X- pi 
cr/y/n 


N(0,  1) 


es  decir,  una  variable  normal  estandar.  Entonces,  de  la  tabla  de  distribucion  normal,  sabemos 
que 


Pr(— 1.96  <  Z,  <  1.96)  =  0.95 


Es  decir. 


Pr 


X  —  a  \ 

1.96  <  - -  <  1.96  =0.95 

o/y/n  ) 


lo  cual,  al  reordenar  terminos,  da 


Pr 


1-  1.96-^=  <  ii  <X+  1.96 

y/n 


0.95 


Este  es  un  intervalo  de  confianza  a  95%  para  //.  Una  vez  construido  este  intervalo,  la  prueba  de 
la  hipotesis  nula  es  simple.  Todo  lo  que  debemos  hacer  es  ver  si  /x  =  //*  se  encuentra  en  este 
intervalo.  Si  se  encuentra,  podemos  aceptar  la  hipotesis  nula;  si  no  se  encuentra,  la  podemos 
rechazar. 
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FIGURA  A.1 2 

Intervalo  de  confianza  a 
95%  para  q. 


De  regreso  con  el  ejemplo  24,  establecimos  ya  un  intervalo  de  confianza  a  95%  para  p, 
que  es 


66.51  <  p  <  67.49 

Como  es  obvio,  este  intervalo  no  incluye  /z  =  69.  Por  consiguiente,  rechazamos  la  hipotesis 
nula  de  que  el  verdadero  /i  es  69  con  un  coeficiente  de  confianza  de  95%.  La  situacion  se  ilustra 
geometricamente  en  la  figura  A.  12. 

En  el  lenguaje  de  pruebas  de  hipotesis,  el  intervalo  de  confianza  que  construimos  se  denomina 
region  de  aceptacion,  y  el(las)  area(s)  por  fuera  de  la  region  de  aceptacion,  region(es)  critica(s), 
o  region(es)  de  rechazo,  de  la  hipotesis  nula.  Los  limites  inferior  y  superior  de  la  region  de 
aceptacion  (que  la  delimitan  con  las  regiones  de  rechazo)  se  denominan  valores  crfticos.  En  este 
lenguaje  de  prueba  de  hipotesis,  si  el  valor  hipotetico  se  encuentra  dentro  de  la  region  de  acepta¬ 
cion,  podemos  aceptar  la  hipotesis  nula;  de  lo  contrario,  la  podemos  rechazar. 

Es  importante  anotar  que,  en  la  decision  de  rechazar  o  no  H0,  es  probable  que  se  cometan  dos 
tipos  de  errores:  1 )  se  puede  rechazar  H0  cuando  es,  en  realidad,  cierta;  este  se  denomina  un  error 
tipo  I  (asi,  en  el  ejemplo  anterior,  X  —  67  pudo  provenir  de  la  poblacion  con  un  valor  medio  de 
69),  o  2)  se  puede  aceptar  H0  cuando,  en  realidad,  es  falsa;  este  error  se  llama  error  tipo  II.  Por 
consiguiente,  una  prueba  de  hipotesis  no  establece  el  valor  de  la  verdadera  p:  tan  solo  propor- 
ciona  un  mecanismo  para  decidir  si  podemos  actuar  como  si  p  =  p*. 

Errores  tipo  I  y  tipo  II 
Esquematicamente,  tenemos 


Estado  de  naturaleza 

Decision  Ho  es  verdadera  Ho  es  falsa 

Rechazar  Error  tipo  I  No  hay  error 

No  rechazar  No  hay  error  Error  tipo  II 


Lo  ideal  seria  reducir  los  errores  tipo  1  y  tipo  II.  Pero,  por  desgracia,  con  cualquier  tamano  de 
muestra  dado,  no  es  posible  reducir  ambos  errores  de  manera  simultanea.  El  enfoque  clasico 
de  este  problema,  comprendido  en  el  trabajo  de  Neyman  y  Pearson,  es  suponer  la  probabilidad  de 
que  un  error  tipo  I  sea  mas  grave  en  la  practica  que  un  error  tipo  II.  Por  consiguiente,  debe- 
mos  tratar  de  mantener  la  probabilidad  de  cometer  un  error  tipo  I  en  un  nivel  relativamente  bajo, 
como  0.01  o  0.05,  y  luego  tratar  de  reducir  al  maximo  la  probabilidad  de  incurrir  en  un  error 
tipo  II. 
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FIGURA  A.1 3 


En  la  bibliografia,  la  probabilidad  de  un  error  tipo  1  se  representa  con  a  y  se  denomina  nivel 
de  significance,  y  la  probabilidad  de  un  error  tipo  11  se  representa  con  ft.  La  probabilidad  de  no 
cometer  un  error  tipo  II  se  denomina  potencia  de  la  prueba.  Para  expresarlo  de  otra  manera:  la 
potencia  de  una  prueba  es  su  capacidad  para  rechazar  una  hipotesis  nula  falsa.  El  metodo  clasico 
de  pruebas  de  hipotesis  es  fijar  a  en  niveles  como  0.01  (1%)  o  0.05  (5%)  y  luego  tratar  de  maxi- 
mizar  la  potencia  de  la  prueba;  es  decir,  reducir  ft. 

Es  importante  que  el  lector  comprenda  el  concepto  de  potencia  de  una  prueba,  lo  cual  se  ex¬ 
plica  mejor  con  un  ejemplo.8 

Sea  X  ~  N(fi,  100);  es  decir,  X  esta  normalmente  distribuida  con  una  media  /x  y  una  varianza 
100.  Suponga  que  a  —  0.05  y  que  tenemos  una  muestra  de  25  observaciones,  la  cual  da  una 
media  muestral  de  X.  Suponga  ademas  que  tenemos  la  hipotesis  de  que  1 1  o',  /i  —  50.  Como  X 
esta  normalmente  distribuida,  sabemos  que  la  media  muestral  esta  tambien  normalmente  distri¬ 
buida  como:  X  ~  7V(/x,  100/25).  Por  tanto,  segun  la  hipotesis  nula  establecida  de  que  /x  =  50,  el 
intervalo  de  confianza  de  95%  para  X  es  (/x  ±  1.96(^100/25)  =  /x  ±  3.92,  es  decir,  de  46.08  a 
53.92.  En  consecuencia,  la  region  critica  consiste  en  todos  los  valores  de  X  menores  que  46.08  o 
mayores  que  53.92.  Es  decir,  rechazamos  la  hipotesis  nula  de  que  la  verdadera  media  es  50  si  un 
valor  de  la  media  muestral  esta  por  debajo  de  46.08  o  por  arriba  de  53.92. 

Pero  (,cual  es  la  probabilidad  de  que  X  este  en  la(s)  anterior(es)  region(es)  critica) s),  si  la 
verdadera  /x  tiene  un  valor  distinto  de  50?  Suponga  que  existen  tres  hipotesis:  /x  =  48,  /x  —  52 
y  /x  =  56.  Si  cualquiera  de  ellas  es  cierta,  sera  la  verdadera  media  de  la  distribution  de  X .  El 
error  estandar  es  invariante  para  las  tres  alternativas,  pues  se  sigue  suponiendo  que  a 2  toma  el 
valor  de  100. 

Las  areas  sombreadas  de  la  figura  A.  13  muestran  las  probabilidades  de  que  X  se  encuentre  en 
la  region  critica,  si  cada  hipotesis  alternativa  es  verdadera.  Como  se  puede  verificar,  dichas  pro- 


Distribucion  de  X cuando  N  =  25,  a  =  10  y  /x  =  48,  50,  52  o  56.  Segun  la  hipotesis  H:  /x  =  50,  la  region 
critica  con  a  =  0.05  es  X  <  46.1  y  -X  >  53.9.  El  area  sombreada  indica  la  probabilidad  de  que  X  se 
encuentre  en  la  region  critica.  Esta  probabilidad  es: 

0.17  si  ii  =  48  0.17  si  /x  =  52 

0.05  si  /x  =  50  0.85  si  /x  =  56 


/x  =  48 


H:p  =  50 


p  =  52 


p  =  56 


44  46  AS  50  52  54  56  58  60  62 

I  I 


44  46  48  50  52  54  56  58  60  62 


44  46  48  50  52  54  56  58  60  62 


44  46  48  50  52  54  56  58  60  62 


8  El  siguiente  analisis  y  las  cifras  se  basan  en  la  obra  de  Helen  M.  Walker  y  Joseph  Lev,  Statistical  inference, 
Holt,  Rinehart  y  Winston,  Nueva  York,  1953,  pp.  161-162. 
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FIGURA  A.14 

Funcion  potencia  de 
la  prueba  de  hipotesis 
/x  =  50  cuando  N  =  25, 
cr  =  10  y  a  =  0.05. 


Probabilidad  de  rechazar  H 


Escala  de  p 


babilidades  son  0.17  (para  /z  =  48),  0.05  (para  pt  —  50),  0.17  (para  p  =  52)  y  0.85  (para  /z  =  56). 
Como  se  observa  a  partir  de  esta  figura,  siempre  que  el  verdadero  valor  de  /z  difiera  sustancial- 
mente  respecto  de  la  hipotesis  en  consideration  (que  aqui  cs  /z  =  50),  la  probabilidad  de  rechazar 
la  hipotesis  es  alta,  pero  cuando  el  verdadero  valor  no  es  muy  distinto  del  valor  dado  segrin  la 
hipotesis  nula,  la  probabilidad  de  rechazo  es  pequena.  Por  intuition,  esto  debe  ser  sensato  si 
las  hipotesis  nula  y  alternativa  estan  muy  proximas  entre  si. 

Esto  resulta  mas  claro  si  tiene  en  cuenta  la  figura  A.14,  conocida  como  grafica  de  la  funcion 
potencia;  asimismo,  la  curva  que  ahi  se  ilustra  se  conoce  como  curva  potencia. 

El  lector  ya  se  habra  dado  cuenta  de  que  el  coeficiente  de  confianza  (1  —  a)  analizado  antes 
es  tan  solo  uno  menos  la  probabilidad  de  cometer  un  error  tipo  I.  Por  tanto,  un  coeficiente  de 
confianza  de  95%  significa  que  se  esta  preparado  para  aceptar,  como  maximo,  una  probabilidad 
de  5%  de  cometer  un  error  tipo  1  — no  deseamos  rechazar  la  hipotesis  verdadera  mas  de  5  veces 
de  cada  100 — . 

Valor  p,  o  nivel  exacto  de  significancia 

En  lugar  de  preseleccionar  a  en  niveles  arbitrarios,  como  1 ,  5  o  1 0%,  podemos  obtener  el  valor  p 
(probabilidad),  o  nivel  exacto  de  significancia  de  un  estadistico  de  prueba.  El  valor p  se  define 
como  el  nivel  de  significancia  mas  bajo  al  cual  puede  rechazarse  una  hipotesis  nula. 

Suponga  que  en  una  aplicacion  que  considera  20  gl  obtenemos  un  valor  t  de  3.552.  Ahora, 
el  valor p,  o  la  probabilidad  exacta,  de  obtener  un  valor  t  de  3.552  o  mayor  se  ve  en  la  tabla  D.2 
como  0.001  (a  una  cola)  o  0.002  (a  dos  colas).  Podemos  decir  que  el  valor  t  observado  de  3.552 
es  estadisticamente  significativo  en  el  nivel  de  0.001  o  0.002,  segun  se  emplee  una  prueba  de  una 
o  de  dos  colas. 

Diversos  paquetes  estadisticos  imprimen  el  valor  p  de  los  estadisticos  de  prueba  estimados. 
Por  consiguiente,  se  aconseja  al  lector  dar  el  valor p  siempre  que  sea  posible. 

Tamano  de  la  muestra  y  pruebas  de  hipotesis 

En  datos  provenientes  de  encuestas  que  comprenden  cientos  de  observaciones,  la  hipotesis  nula 
se  rechaza,  al  parecer,  con  mayor  frecuencia  que  en  las  muestras  pequenas.  Aqui  vale  la  pena  citar 
a  Angus  Deaton: 

A  medida  que  el  tamano  de  la  muestra  aumenta,  y  siempre  que  se  siga  un  procedimiento  de  esti¬ 
mation  consistente,  las  estimaciones  se  aproximaran  mas  a  la  verdad  y  estaran  menos  dispersos 
alrededor  de  esta,  de  modo  que  las  discrepancias  que  no  pueden  detectarse  en  una  muestra  de  tamano 
pequeno  provocan  rechazo  en  muestras  grandes.  Las  muestras  de  tamano  grande  son  como  un  poder 
mayor  de  resolution  en  un  telescopio;  las  caracteristicas  que  no  son  visibles  a  la  distancia  se  vuelven 
cada  vez  mas  nitidas  a  medida  que  aumenta  la  amplification.9 


9  Angus  Deaton,  The  Analysis  of  Household  Surveys:  A  Microeconometric  Approach  to  Development  Policy,  The 
Johns  Hopkins  University  Press,  Baltimore,  2000,  p.  1  30. 
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Segun  Learner  y  Schwartz,  Deaton  propone  ajustar  los  valores  criticos  estandar  de  las  pruebas 
F  y  x2  como  sigue:  Rechace  la  hipotesis  nula  cuando  el  valor  F  calculado  sea  superior  al  loga- 
ritmo  del  tamano  muestral,  esto  es,  In,  y  cuando  el  estadistico  y2  calculado  para  la  restriccion  q 
sea  superior  a  qln,  donde  l  es  el  logaritmo  natural  y  n  es  el  tamano  de  la  muestra.  Estos  valores 
criticos  se  conocen  como  valores  criticos  de  Leamer-Schwarz. 

En  el  ejemplo  de  Deaton,  si  n  —  100,  la  hipotesis  nula  se  rechazaria  solo  si  el  valor  F  calcu¬ 
lado  fuera  mayor  que  4.6,  pero  si  n  —  10  000,  la  hipotesis  nula  se  rechazaria  cuando  el  valor  F 
calculado  fuera  superior  a  9.2. 


Metodo  de  la  prueba  de  significance 

Recuerde  que 


X-  id 
cr  /  *Jn 


N(  0,  1) 


En  cualquier  aplicacion  dada,  X  y  n  se  conocen  (o  se  estiman),  pero  los  verdaderos  p  y  a  no  se 
conocen.  Sin  embargo,  si  se  especifica  a  y  suponemos  (segun  //q)  que  /i  —  p*,  un  valor  numerico 
especifico,  entonces  Z,  puede  calcularse  directamente  y  podemos  consultar  la  tabla  de  la  distribu¬ 
cion  normal  para  encontrar  la  probabilidad  de  obtener  el  valor  Z  calculado.  Si  esta  probabilidad 
es  baja,  por  ejemplo,  menor  que  5%  o  que  1%,  podemos  rechazar  la  hipotesis  nula:  si  la  hipotesis 
fuera  cierta,  la  posibilidad  de  obtener  el  valor  Z  particular  deberia  ser  muy  alta.  Esta  es  la  idea 
general  del  metodo  de  pruebas  de  significancia  para  probar  hipotesis.  La  idea  clave  es  el  estadis¬ 
tico  de  prueba  (aqui  el  estadistico  Z)  y  su  distribucion  de  probabilidades  segun  el  valor  supuesto 
p  —  p*.  Apropiadamente,  en  el  presente  caso,  la  prueba  se  conoce  como  prueba  Z,  pues  utiliza- 
mos  el  valor  (normal  estandarizado)  de  Z. 

Al  considerar  de  nuevo  el  ejemplo,  si  p  —  p*~  69,  el  estadistico  Z  se  convierte  en 


X-  p* 
o/yfn 
67-69 
~  2.5/vTOO 

=  -2/0.25  =  -8 


En  la  tabla  de  la  distribucion  normal  D.  1  se  ve  que  la  probabilidad  de  obtener  ese  valor  de  Z  es 
extremadamente  baja.  ( Nota :  La  probabilidad  de  que  Z  exceda  3  o  — 3  es  de  alrededor  de  0.001. 
Por  consiguiente,  la  probabilidad  de  que  Z  exceda  8  es  aun  menor.)  Por  tanto,  podemos  rechazar 
la  hipotesis  nula  de  que  p  —  69;  con  este  valor,  la  probabilidad  de  obtener  una  X  de  67  es  extre¬ 
madamente  baja.  Asi,  dudamos  que  la  muestra  proviniese  de  una  poblacion  con  un  valor  medio 
de  69.  La  situation  se  ilustra  en  forma  diagramatica  en  la  figura  A.  15. 


FIGURA  A.  15 

Distribucion  del  estadis¬ 
tico  Z 
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En  el  lenguaje  de  pruebas  de  significance,  cuando  decimos  que  una  prueba  (estadistica)  es 
significativa,  por  lo  general  nos  referimos  a  que  podemos  rechazar  la  hipotesis  nula.  Y  el  estadis- 
tico  de  prueba  se  considera  significativo  si  la  probabilidad  de  obtenerlo  es  igual  o  menor  que  a, 
es  decir,  la  probabilidad  de  cometer  un  error  tipo  I.  Asi,  si  a  —  0.05,  sabemos  que  la  probabilidad 
de  obtener  un  valor  Z  de  —  1 .96  o  1 .96  es  de  5%  (o  2.5%  en  cada  cola  de  la  distribucion  normal 
estandarizada).  En  el  ejemplo  ilustrativo,  Z  era  —8.  Por  tanto,  la  probabilidad  de  obtener  ese  valor 
de  Z  es  muy  inferior  a  2.5%,  muy  por  debajo  de  la  probabilidad  previamente  especificada  de  co¬ 
meter  un  error  tipo  1.  Es  por  esto  que  el  valor  calculado  de  Z  =  —  8  es  estadisticamente  significa¬ 
tivo;  es  decir,  rechazamos  la  hipotesis  nula  de  que  la  verdadera  //*  es  69.  Por  supuesto,  llegamos 
a  la  misma  conclusion  con  el  enfoque  de  intervalos  de  confianza  para  pruebas  de  hipotesis. 
Resumimos  ahora  los  pasos  comprendidos  en  las  pruebas  de  hipotesis  estadisticas: 

Paso  1.  Postular  la  hipotesis  nula  Hq  y  la  hipotesis  alternativa  H\  (por  ejemplo,  Hq:  h  —  69 
>'  /<  -A  69). 

Paso  2.  Seleccionar  el  estadistico  de  prueba  (por  ejemplo,  X). 

Paso  3.  Determinar  la  distribucion  de  probabilidades  del  estadistico  de  prueba  (por  ejemplo, 
X  ~  N(ii,cr2/n). 

Paso  4.  Seleccionar  el  nivel  de  significancia  (es  decir,  la  probabilidad  de  cometer  un  error 
tipo  I)  a. 

Paso  5.  Con  la  distribucion  de  probabilidades  del  estadistico  de  prueba,  construir  un  in- 
tervalo  de  confianza  a  100(1  —  a)%.  Si  el  valor  del  parametro  segun  la  hipotesis  nula  (por 
ejemplo,  fi =  /j,*  =  69)  se  encuentra  en  esta  region  de  confianza  (la  region  de  aceptacion), 
no  se  rechaza  la  hipotesis  nula;  pero  si  se  encuentra  por  fuera  de  este  intervalo  (es  decir,  en 
la  region  de  rechazo),  debe  rechazar  la  hipotesis  nula.  Tenga  en  mente  que  al  no  rechazar  o 
rechazar  la  hipotesis  nula,  corre  el  riesgo  de  estar  equivocado  a  por  ciento  de  las  veces. 
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Para  los  detalles  del  material  cubierto  en  este  apendice,  el  lector  puede  consultar  las  siguientes 

referencias: 

Hoel,  Paul  G.,  Introduction  to  Mathematical  Statistics ,  4a.  ed.,  John  Wiley  &  Sons,  Nueva  York, 
1974.  Este  libro  proporciona  una  introduccion  relativamente  sencilla  a  diversos  aspectos  de  la 
estadistica  matematica. 

Freund,  John  E.  y  Ronald  E.  Walpole,  Mathematical  Statistics,  3a.  ed.,  Prentice  Hall,  Englewood 
Cliffs,  Nueva  Jersey,  1980.  Otro  libro  de  texto  introductorio  en  estadistica  matematica. 

Mood,  Alexander  M.,  Franklin  A.  Graybill  y  Duane  C.  Boes,  Introduction  to  the  Theory  of  Sta¬ 
tistics,  3a.  ed.,  McGraw-Hill,  Nueva  York,  1974.  Es  una  introduccion  completa  a  la  teoria 
estadistica  pero  un  poco  mas  dificil  que  los  dos  libros  anteriores. 

Newbold,  Paul,  Statistics  for  Business  and  Economics,  Prentice  Hall,  Englewood  Cliffs,  Nueva 
Jersey,  1984.  Una  introduccion  no  matematica  completa  a  la  estadistica  con  muchos  proble- 
mas  resueltos. 


Apendice 

±5 


Nociones  basicas 
de  algebra  matricial 

En  este  apendice  se  presentan  nociones  esenciales  del  algebra  matricial  requeridas  para  entender 
el  apendice  C  y  parte  del  material  del  capitulo  18.  El  analisis  no  es  riguroso  y  no  se  dan  pruebas. 
El  lector  puede  consultar  las  pruebas  y  mayores  detalles  en  las  referencias. 


B.l  Definiciones 


Matriz 

Una  matriz  es  un  ordenamiento  rectangular  de  numeros  o  de  elementos  arreglados  en  renglones 
y  en  columnas.  Mas  precisamente,  una  matriz  de  orden,  o  de  dimension,  M  por  N  (escrita  como 
M  x  TV)  es  un  conjunto  de  M  x  TV  elementos  ordenados  en  M  renglones  y  TV  columnas.  Por  tanto, 
si  las  letras  en  negritas  denotan  matrices,  una  matriz  A  de  (M  x  TV)  se  expresa  como 


ail 

a  12 

an  • 

a\N 

A  =  [atj]  = 

a2i 

«22 

a23 

aiN 

_a*?i 

fljU2 

a*/3  ■ 

■  aMN  _ 

donde  a,y  es  el  elemento  que  aparece  en  el  z-esimo  renglon  y  la  y'-esima  columna  de  A,  y  donde 
[n,y]  es  una  expresion  abreviada  para  la  matriz  A  cuyo  elemento  caracteristico  es  a,j.  El  orden  o 
dimension  de  una  matriz  — es  decir,  el  numero  de  bias  y  columnas —  suele  escribirse  debajo  de 
la  matriz  como  referencia  sencilla. 


'2 

3 

5' 

1 

5 

7" 

6 

1 

3 

B  = 

3x3 

-1 

0 

4 

8 

9 

11_ 

Escalar 

Un  escalar  es  un  numero  (real).  En  otro  caso,  un  escalar  es  una  matriz  lxl. 


Vector  columna 

Una  matriz  que  consta  de  A/filas  y  solo  una  columna  se  denomina  vector  columna.  Con  las  letras 
minusculas  en  negritas  que  denotan  vectores,  un  ejemplo  de  vector  columna  es 

3~ 

4 

5 
9 


x 

4x1 
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Vector  renglon 

Una  matriz  que  consta  de  solo  un  renglon  y  N  columnas  se  denomina  vector  renglon. 

x  =  [1  2  5  -  4]  y  =  [0  5  -9  6  10] 

1x4  1x5 


Trasposicion 

La  traspuesta  de  una  matriz  A  de  M  x  N,  denotada  por  A'  (se  lee  A  prima  o  A  traspuesta),  es 
una  matriz  N  x  M  obtenida  mediante  el  intercambio  de  renglones  y  columnas  de  A;  es  decir,  el 
/-esimo  renglon  de  A  se  convierte  en  la  i-esima  columna  de  A'.  Por  ejemplo, 


A  = 

3x2 


4 

3 

5 


5 

1 

0 


A'  = 

2x3 


4  3 

5  1 


5 

0 


Como  un  vector  es  un  tipo  especial  de  matriz,  la  traspuesta  de  un  vector  renglon  es  un  vector 
columna,  y  la  de  un  vector  columna  un  vector  renglon.  Por  tanto, 


y  x'  =  [4  5  6] 


Utilizaremos  la  convention  de  indicar  los  vectores  renglon  mediante  el  slmbolo  de  primo. 


Submatriz 


Con  cualquier  matriz  A  de  M  x  N,  si  se  borran  todos  los  renglones  y  columnas  de  A  menos  r  ren¬ 
glones  y  5  columnas,  la  matriz  resultante  de  orden  r  x  s  se  denomina  submatriz  de  A.  Asi,  si 


A  = 

3x3 


3 

8 

3 


5  7 
2  1 
2  1 


y  borramos  el  tercer  renglon  y  la  tercera  columna  de  A,  obtenemos 

B  = 

2x2 

que  es  una  submatriz  de  A  de  orden  2x2. 


3  5 
8  2 


B.2  Tipos  de  matrices 

Matriz  cuadrada 

Una  matriz  con  el  mismo  numero  de  renglones  y  de  columnas  se  denomina  matriz  cuadrada. 


Matriz  diagonal 

Una  matriz  cuadrada  que  posee  al  menos  un  elemento  diferente  de  cero  sobre  la  diagonal  princi¬ 
pal  (que  parte  de  la  esquina  superior  izquierda  hasta  la  esquina  inferior  derecha),  y  con  valores 
restantes  de  cero,  se  denomina  matriz  diagonal. 


A  = 

2x2 


2 

0 


0 

3 


B  = 

3x3 


-2  0 
0  5 
0  0 


0 

0 

1 
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Matriz  escalar 

Una  matriz  diagonal  cuyos  elementos  diagonales  son  todos  iguales  se  denomina  matriz  esca¬ 
lar.  Un  ejemplo  es  la  matriz  de  varianza-covarianza  de  las  perturbaciones  poblacionales  del  mo- 
delo  clasico  de  regresion  lineal  de  la  ecuacion  (C.2.3),  a  saber: 


var-cov(u) 


~a2  0  0  0  0  - 

0  cr2  0  0  0 

0  0  cr2  0  0 

0  0  0  cr2  0 

_  0  0  0  0  cr2  _ 


Matriz  identidad  o  unitaria 

Una  matriz  diagonal  cuyos  elementos  diagonales  son  todos  1  se  denomina  matriz  identidad 
o  unitaria  y  se  denota  por  I.  Es  una  clase  especial  de  matriz  escalar. 


I 

3x3 


1  0  0 
0  1  0 
0  0  1 


I 

4x4 


10  0  0 
0  10  0 
0  0  10 
0  0  0  1 


Matriz  simetrica 

Una  matriz  cuadrada  cuyos  elementos  por  encima  de  la  diagonal  son  imagenes  reflejo  de  los  ele¬ 
mentos  por  debajo  de  la  diagonal  principal  se  denomina  matriz  simetrica.  Ademas,  una  matriz 
simetrica  es  tal  que  su  traspuesta  es  igual  a  si  misma;  es  decir,  A  =  A'.  Es  decir,  el  elemento  a,7- 
de  A  es  igual  al  elemento  a}l  de  A'.  Un  ejemplo  es  la  matriz  de  varianza-covarianza  de  la  ecuacion 
(C.2.2).  Otro  ejemplo  es  la  matriz  de  correlation  de  (C.5.1). 

Matriz  nula 

Una  matriz  cuyos  elementos  son  todos  cero  se  denomina  matriz  nula  y  se  denota  por  0. 

Vector  nulo 

Un  vector  renglon  o  columna  cuyos  elementos  son  todos  cero  se  denomina  vector  nulo  y  se 
denota  tambien  por  0. 

Matrices  iguales 

Se  dice  que  dos  matrices  A  y  B  son  iguales  si  son  del  mismo  orden  y  sus  elementos  correspon- 
dientes  son  iguales;  es  decir,  a,,  =  b:j  para  todo  i  y  j.  Por  ejemplo,  las  matrices 


3 

0 

4 

-1 

5~ 

2 

y 

B  = 

3 

0 

4 

-1 

5 

2 

5 

1 

3  _ 

3x3 

5 

1 

3_ 

son  iguales;  es  decir,  A  =  B 

B.3  Operaciones  matriciales 

Adicion  de  matrices 

Sea  A  =  [a,j\  y  B  =  [b,j\.  Si  A  y  B  son  del  mismo  orden,  definimos  la  adicion  de  matrices  como 

A  +  B  =  C 


Apendice  B  Nociones  basicas  de  algebra  matricial  841 


donde  C  es  del  mismo  orden  que  A  y  B  y  se  obtiene  como  ctJ  —  alf  +  by  para  todo  i  y  j;  es  decir, 
C  se  obtiene  al  sumar  los  elementos  correspondientes  para  la  adicion.  Por  ejemplo,  si 


2  3  4  5 
6  7  8  9 


y 


o 

o 


-1  3 
1  5 


y  C  =  A  +  B,  entonces 


3  3  3  8 

4  7  9  14 


Resta  de  matrices 

La  resta  de  matrices  sigue  el  mismo  principio  que  la  adicion  de  matrices,  excepto  que  C  = 
A  —  B;  es  decir,  se  restan  los  elementos  de  B  de  los  elementos  correspondientes  de  A  para  obte- 
ner  C,  en  tanto  A  y  B  sean  del  mismo  orden. 


Multiplicacion  por  escalar 

Para  multiplicar  una  matriz  A  por  un  escalar  7.  (un  numero  real),  se  multiplica  cada  elemento  de 
la  matriz  por  X: 


Por  ejemplo,  si  X  —  2  y 


entonces 


A.  A  =  [Xatj] 


5 

7 


10 

14 


Multiplicacion  de  matrices 


Sea  AMxNyBNxP.  Entonces,  el  producto  AB  (en  ese 
nueva  matriz  C  del  orden  M  x  P  tal  que 

E»  t  =  1,2,... 

aikbkj  •  _  |  9 

k=\  J  ’  ’  '  '  ' 


orden)  esta  definido  para  ser  una 

,P 


Es  decir,  el  elemento  en  el  z'-esimo  renglon  y  la y'-esima  columna  de  C  se  obtiene  al  multiplicar  los 
elementos  del  z-esimo  renglon  de  A  por  los  elementos  correspondientes  de  la y'-esima  columna  de 
B  y  sumar  sobre  todos  los  terminos;  esto  se  conoce  como  regia  de  la  multiplicacion  del  renglon 
por  columna.  Asi,  para  obtener  cn,  el  elemento  en  el  primer  renglon  y  en  la  primera  columna  de 
C,  se  multiplican  los  elementos  en  el  primer  renglon  de  A  por  los  correspondientes  en  la  primera 
columna  de  B  y  se  suma  sobre  todos  los  terminos.  En  forma  similar,  para  obtener  cp,  se  multi¬ 
plican  los  elementos  del  primer  renglon  de  A  por  los  correspondientes  en  la  segunda  columna  de 
B  y  se  suma  sobre  todos  los  terminos,  y  asi  sucesivamente. 

Observe  que,  para  que  exista  la  multiplicacion,  las  matrices  A  y  B  deben  ser  conformables 
respecto  de  la  multiplicacion;  es  decir,  el  numero  de  columnas  en  A  debe  ser  igual  al  numero 
de  renglones  en  B.  Si,  por  ejemplo, 


A  = 

2x3 


3 

5 


4 

6 


7 

1 


y 


B 

3x2 


2  1 
3  5 
6  2 


AB=  C  = 

2x2 


(3  X  2)  +  (4  X  3)  +  (7  X  6) 
(5  x  2)  +  (6  x  3)  +  (1  x  6) 


(3  x  1)  +  (4  x  5)  +  (7  x  2) 
(5  x  1)  + (6  x  5) +  (1  x  2) 


60  37 
34  37 
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Pero  si 


A  = 

2x3 


3 

5 


4  7 

6  1 


y 


3 

6 


el  producto  AB  no  esta  definido,  pues  A  y  B  no  son  conformables  respecto  de  la  multiplicacion. 


Propiedades  de  la  multiplicacion  de  matrices 

1 .  La  multiplicacion  de  matrices  no  necesariamente  es  conmutativa;  es  decir,  en  general  AB  ^ 
BA.  Por  consiguiente,  el  orden  en  el  cual  se  multiplican  las  matrices  es  muy  importante.  AB 
significa  que  A  es  posmultiplicada  por  B  o  B  es  premultiplicada  por  A. 

2.  Aunque  existan  AB  y  BA,  las  matrices  resultantes  pueden  no  ser  del  mismo  orden.  Por  tanto, 
si  A  es  M  x  Ay  B  es  N  x  M,  AB  es  M  x  M,  mientras  que  BA  es  N  x  N,  de  donde  se  explica 
la  diferencia  de  orden. 


3.  Aunque  A  y  B  sean  matrices  cuadradas,  de  manera  que  AB  y  BA  esten  definidas,  las  matrices 
resultantes  no  necesariamente  seran  iguales.  Por  ejemplo,  si 


A  = 


4 

3 


7 

2 


y 


5 

8 


entonces 


AB  = 


46 

15 


76 

31 


y 


17 

58 


y  AB  BA.  Un  ejemplo  de  AB  =  BA  es  cuando  tanto  A  como  B  son  matrices  identidad. 

4.  Un  vector  renglon  posmultiplicado  por  un  vector  columna  es  un  escalar.  Por  tanto,  considere 
los  residuos  de  minimos  cuadrados  ordinarios  U\,  iij,  ■  ■  ■  ,  u„.  Si  u  es  un  vector  columna  y  u' 
un  vector  renglon,  tenemos 


u'u  =  \U\  It  2  «3 


Un\ 


Ml 

M2 
M  3 


_  _ 

=  iij  +  U2  H-  +  •  •  •  +  u'n 

—  ^  u2j  un  escalar  [vease  la  ecuacion  (C.3.5)] 


5.  Un  vector  columna  posmultiplicado  por  un  vector  renglon  es  una  matriz.  Como  ejemplo, 
considere  las  perturbaciones  poblacionales  del  modelo  clasico  de  regresion  lineal,  a  saber:  u\, 
U2,  ■  ■  ■ ,  u„.  Si  u  es  un  vector  columna  y  u'  un  vector  renglon,  obtenemos 


1 

-h  cq 

a  a 

1 _ 

uu'  = 

M3 

_  _ 

[Ml  M2 

M3 

Un\ 

“1 

MlM2 

Mi  M3 

U\U 

= 

M2M1  M2 

M2M3 

•  M2M 

_UnU  1  UnU2 

MWM3 

■  «« 
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que  es  una  matriz  de  orden  n  x  n.  Observe  que  la  matriz  anterior  es  simetrica. 

6.  Una  matriz  posmultiplicada  por  un  vector  columna  es  un  vector  columna. 

7.  Un  vector  renglon  posmultiplicado  por  una  matriz  es  un  vector  renglon. 

8.  La  multiplicacion  de  matrices  es  asociativcr,  es  decir,  (AB)C  =  A(BC),  donde  A  es  M  x  N, 
B  es  N  x  P  y  C  es  P  x  K. 

9.  La  multiplicacion  de  matrices  es  distributiva  respecto  de  la  suma;  es  decir,  A(B  +  C)  =  AB  + 
AC  y  (B  +  C)A  =  BA  +  CA. 

Trasposicion  de  matrices 

Definimos  ya  el  proceso  de  trasposicion  de  matrices  como  el  intercambio  de  renglones  y  de 

columnas  de  una  matriz  (o  de  un  vector).  Ahora  presentamos  algunas  propiedades  de  la  traspo¬ 
sicion. 

1 .  La  traspuesta  de  una  matriz  traspuesta  es  la  matriz  original  misma.  Por  tanto,  (A')'  =  A. 

2.  Si  A  y  B  son  conformables  para  la  adicion,  entonces  C  =  A  +  B  y  C'  =  (A  +  B)'  =  A'  +  B'. 
Es  decir,  la  traspuesta  de  la  suma  de  dos  matrices  es  la  suma  de  sus  traspuestas. 

3.  Si  AB  esta  definido,  entonces  (AB)'  =  B'A'.  Es  decir,  la  traspuesta  del  producto  de  dos  matri¬ 
ces  es  el  producto  de  sus  traspuestas  en  orden  contrario.  Esto  puede  generalizarse:  (ABCD)' 
=  D'C'B'A'. 

4.  La  traspuesta  de  una  matriz  identidad  I  es  la  matriz  identidad  misma;  es  decir  I'  =  I. 

5.  La  traspuesta  de  un  escalar  es  el  escalar  mismo.  Por  tanto,  si  X  es  un  escalar,  X'  =  X. 

6.  La  traspuesta  de  (XA)'  es  XA',  donde  X  es  un  escalar.  [Nota:  (XA)'  =  AX1  =  A'X  —  XA.] 

7.  Si  A  es  una  matriz  cuadrada  tal  que  A  =  A',  entonces  A  es  una  matriz  simetrica.  (Vease  la 
definicion  de  matriz  simetrica  de  la  section  B.2.) 


Inversion  de  matrices 

La  inversa  de  una  matriz  cuadrada  A,  denotada  por  A-1  (se  lee  A  inversa),  si  existe,  es  una  matriz 
cuadrada  unica  tal  que 

AA”1  =  A”*A  =  1 


donde  I  es  una  matriz  identidad  cuyo  orden  es  el  mismo  que  el  de  A.  Por  ejemplo, 


A  = 


A’1 


I 

6 


AA”1  = 


Veremos  como  calcular  A  1  despues  de  estudiar  el  tema  de  determinantes.  Mientras  tanto  ob¬ 
serve  estas  propiedades  de  la  inversa. 

1.  (AB)”1  =B”1A”1;  es  decir,  la  inversa  del  producto  de  dos  matrices  es  el  producto  de  sus  in- 
versas  en  orden  opuesto. 


2.  (A  =  (A')  es  decir,  la  traspuesta  de  A  inversa  es  la  inversa  de  A  traspuesta. 


B .  4  D  eterminantes 


Por  cada  matriz  cuadrada  A  existe  un  numero  (escalar)  conocido  como  el  determinante  de  la 
matriz,  que  se  denota  por  det  A  o  por  el  simbolo  |  A  |,  donde  |  |  significa  “el  determinante  de”. 
Observe  que  una  matriz  por  si  misma  no  tiene  valor  numerico,  pero  el  determinante  de  una  matriz 
es  un  numero. 


1 

3 

— 7~ 

1 

3 

-7 

2 

5 

0 

1  A  |  = 

2 

5 

0 

_  3 

8 

6_ 

3 

8 

6 

A  = 
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El  |  A  |  en  este  ejemplo  se  denomina  determinante  de  orden  3  porque  esta  asociado  con  una  matriz 
de  orden  3x3. 

Calculo  de  un  determinante 

El  proceso  de  encontrar  el  valor  de  un  determinante  se  conoce  como  evaluation,  expansion  o 
reduction  del  determinante.  Esto  se  logra  al  manipular  los  elementos  de  la  matriz  en  una  forma 
bien  definida. 


Evaluation  de  un  determinante  de  2  x  2 
Si 


A  = 


an 

an 


a  12 
«22 


su  determinante  se  evalua  de  la  siguiente  manera: 


I  A  | 


on 

an 


X 


an 

an 


a  1 1 022  —  O12O21 


que  se  obtiene  al  multiplicar  en  cruz  los  elementos  de  la  diagonal  principal  y  restar  de  ellos  la 
multiplication  en  cruz  de  los  elementos  de  la  otra  diagonal  de  la  matriz  A,  como  indican  las 
flechas. 


Evaluation  de  un  determinante  de  3  x  3 
Si 


a  li 

a  12 

a  13 

an 

a  22 

«23 

_«31 

an 

«33  _ 

entonces 


I  A  |  =  011022033  —  O11U23O32  +  012023031  —  012021033  +  013021032  —  013022031 
Un  examen  cuidadoso  de  la  evaluation  de  un  determinante  de  3  x  3  muestra  que: 

1 .  Cada  termino  en  la  expansion  del  determinante  contiene  uno  y  solo  un  elemento  de  cada  ren- 
glon  y  de  cada  columna. 

2.  El  numero  de  elementos  en  cada  termino  es  el  mismo  que  el  numero  de  renglones  (o  de  colum- 
nas)  en  la  matriz.  Por  tanto,  un  determinante  de  2  x  2  tiene  dos  elementos  en  cada  termino  de 
su  expansion,  un  determinante  de  3  x  3  tiene  tres  elementos  en  cada  termino  de  su  expansion, 
y  asi  sucesivamente. 

3.  Los  terminos  en  la  expansion  alternan  su  signo  de  +  a  — . 

4.  Un  determinante  de  2  x  2  tiene  dos  terminos  en  su  expansion  y  un  determinante  de  3  x  3 
tiene  seis  terminos  en  su  expansion.  La  regia  general  es:  El  determinante  de  orden  A  x  A  tiene 
A!  —  A(A  —  1  )(A  —  2)  •  •  •  3  •  2  •  1  terminos  en  su  expansion,  donde  N\  se  lee  “A  factorial”. 
Segun  esta  regia,  un  determinante  de  orden  5x5  tendra  5  ■  4  ■  3  ■  2  ■  1  =  120  terminos  en  su 
expansion.1 

Propiedades  de  los  determinantes 

1.  Una  matriz  cuyo  determinante  tiene  un  valor  de  cero  se  denomina  matriz  singular,  mientras 
que  aquella  con  un  determinante  diferente  de  cero  se  denomina  matriz  no  singular.  No  hay 
inversa  de  una  matriz  como  la  recien  definida  para  una  matriz  singular. 


1  Para  evaluar  el  determinante  de  una  matriz  Ad  e  N  x  N,  consulte  las  referencias. 
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2.  Si  todos  los  elementos  de  cualquier  renglon  de  A  son  cero,  su  determinante  es  cero.  Por 
tanto, 


I  A  | 


0  0  0 
3  4  5 
6  7  8 


=  0 


3.  |  A'  |  =  |  A  |;  es  decir,  los  determinantes  de  A  y  de  A  traspuesta  son  los  mismos. 

4.  El  intercambio  de  dos  renglones  cualesquiera  o  de  dos  columnas  cualesquiera  de  una  matriz 
A  cambian  el  signo  de  |  A  | . 


EJEMPLO  1  Si 


1 

On 

vO 

_ i 

"-1  4 " 

A  = 

-1  4 

II 

6  9 

donde  B  se  obtiene  al  intercambiar  los  renglones  de  A,  entonces 

I A  |  =  24  —  (—9)  y  |  B[  =  —9  —  (24) 
=  33  =-33 


5.  Si  cada  elemento  de  un  renglon  o  de  una  columna  de  A  se  multiplica  por  un  escalar  X,  enton¬ 
ces  |  A  |  se  multiplica  por  X. 


EJEMPLO  2  Si 


y  multiplicamos  el  primer  renglon  de  A  por  5  para  obtener 

B  =  P 

2  4 

se  ve  que  |  A |  =  36  y  |  B |  =  1 80,  que  es  5  |  A|. 


6.  Si  dos  renglones  o  columnas  de  una  matriz  son  identicas,  su  determinante  es  cero. 

7.  Si  un  renglon  o  una  columna  de  una  matriz  es  un  multiplo  de  otro  renglon  o  columna  de  esa 
matriz,  su  determinante  es  cero.  Por  tanto,  si 


donde  el  primer  renglon  de  A  es  el  doble  de  su  segundo  renglon,  |  A  |  =  0.  De  forma  mas  gene¬ 
ral,  si  cualquier  renglon  (columna)  de  una  matriz  es  una  combination  lineal  de  otros  renglones 
(columnas),  su  determinante  es  cero. 

8.  |  AB  |  =  |  A 1 1  B  |  ;  es  decir,  el  determinante  del  producto  de  dos  matrices  es  el  producto  de  sus 
determinantes  (individuales). 


Rango  de  una  matriz 

El  rango  de  una  matriz  es  el  orden  de  la  submatriz  cuadrada  mas  grande  cuyo  determinante  no 


sea  cero. 
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EJEMPLO  3 


A  = 


3 

0 

3 


6 

4 

2 


6 

5 

1 


Puede  verse  que  |  A  |  =  0.  En  otras  palabras,  A  es  una  matriz  singular.  Por  tanto,  aunque  su  orden 
es  3  x  3,  su  rango  es  menor  que  3.  En  realidad,  es  2,  pues  se  puede  encontrar  una  submatriz 
2x2  cuyo  determinante  no  es  cero.  Por  ejemplo,  si  borramos  el  primer  renglon  y  la  primera 
columna  de  A,  obtenemos 


cuyo  determinante  es  —6,  que  es  diferente  de  cero.  Asi,  el  rango  de  A  es  2.  Como  ya  menciona- 
mos,  la  inversa  de  una  matriz  singular  no  existe.  Por  consiguiente,  para  una  matriz  A  de  N  x  N, 
su  rango  debe  ser  N  para  que  su  inversa  exista;  si  es  menor  que  N,  A  es  singular. 


Menor 

Si  se  borra  el  renglon  i-esimo  y  la  columna y'-esima  de  una  matriz  A  de  N  x  N,  el  determinante  de 
la  submatriz  resultante  se  denomina  el  menor  del  elemento  o/7  (el  elemento  en  el  intercepto  del 
renglon  /-esimo  y  de  la  columna y'-esima)  y  se  denota  por  |  My  | . 


EJEMPLO  4 


Oil 

012 

013 

A  = 

021 

022 

023 

L031 

032 

033  J 

El  menor  de  on  es 

|  Mn|  = 

En  forma  similar,  el  menor  de  021  es 

I  m21  I  = 


0  22 

023 

032 

033 

012 

013 

0  32 

0  33 

=  022033  “  023032 


=  012033  -  Oi  3O32 


De  la  misma  manera,  pueden  encontrarse  menores  de  otros  elementos  de  A. 


Cofactor 

El  cofactor  del  elemento  ay  de  una  matriz  A  de  N  x  N,  denotado  por  c,7,  se  define  como 

<■„-  =  (-  ir-  Mm 

En  otras  palabras,  un  cofactor  es  un  menor  con  un  signo  asociado,  con  signo  positivo  si  i  +  j  es 
par  y  negativo  si  i  +  j  es  impar.  Por  tanto,  el  cofactor  del  elemento  a\\  de  la  matriz  A  de  3  x  3 
dado  antes  es  022033  —  023032,  mientras  que  el  cofactor  del  elemento  021  es  —  (012033  —  013032) 
porque  la  suma  de  los  subindices  2  y  1  es  3,  un  niimero  impar. 

Matriz  de  cofactores 

A1  remplazar  los  elementos  o,7  de  una  matriz  A  por  sus  cofactores  obtenemos  una  matriz  cono- 
cida  como  matriz  de  cofactores  de  A,  denotada  por  (cof  A). 

Matriz  adjunta 

La  matriz  adjunta,  escrita  como  (adj  A),  es  la  traspuesta  de  la  matriz  de  cofactores;  es  decir, 
(adj  A)  =  (cof  A)'. 
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B.5  Forma  de  encontrar  la  inversa  de  una  matriz  cuadrada 

Si  A  es  cuadrada  y  no  singular  (es  decir,  |  A|  /  0),  su  inversa  A-1  se  encuentra  de  la  siguiente 
manera: 

A-1  =  — ' —  (adj  A) 

|A| 

Los  pasos  comprendidos  en  el  calculo  son  los  siguientes: 

1.  Encontrar  el  determinante  de  A.  Si  es  diferente  de  cero,  proceda  al  paso  2. 

2.  Remplazar  cada  elemento  a,j  de  A  por  su  cofactor  para  obtener  la  matriz  de  cofactores. 

3.  Trasponer  la  matriz  de  cofactores  para  obtener  la  matriz  adjunta. 

4.  Dividir  cada  elemento  de  la  matriz  adjunta  por  |  A  | . 


EJEMPLO  5 


Encuentre  la  inversa  de  la  matriz 


A  = 


1 

5 

2 


2  3 
7  4 
1  3_ 


Paso  1.  Primero  se  encuentra  el  determinante  de  la  matriz.  Al  aplicar  las  reglas  de  expansion  del 
determinante  de  3  x  3  dado  antes,  obtenemos  |A|  =  —24. 

Paso  2.  Obtenemos  ahora  la  matriz  de  cofactores,  por  ejemplo,  C: 


C  = 


7  41  _|5  41  157 

1 1  3  |  1 2  3  |  1 2  1 

12  31  1131112 

1 1  3  |  1 2  3  |  1 2  1 

2  3I  -I1  3I  I1  2 

7  4  |  1 5  4 1  |  5  7 


17 

-7 

-9 

-3 

-3 

3 

-13 

11 

-3. 

Paso  3.  Al  trasponer  la  matriz  de  cofactores  anterior,  obtenemos  la  siguiente  matriz  adjunta: 


(adj  A) 


17  -3  -13 
-7  -3  11 

_-9  3  —3  _ 


Paso  4.  Ahora  dividimos  los  elementos  de  (adj  A)  entre  el  valor  del  determinante  —24  para 
obtener 


Se  verifica  facilmente  que 


A"1 


17  -3  -13 


L-9  3  — 3  J 


17 

3 

13 

24 

24 

24 

7 

3 

11 

24 

24 

24 

9 

3 

3 

24 

24 

24 

AA1  = 


1  0  0 
0  1  0 
.0  0  1  _ 


que  es  una  matriz  identidad.  El  lector  debe  corroborar  que  para  el  ejemplo  ilustrativo  del  apen- 
dice  C,  la  inversa  de  la  matriz  X'X  es  la  que  aparece  en  la  ecuacion  (C.10.5). 
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B.6  Diferenciacion  matricial 


Para  seguir  el  material  del  apendice  CA,  seccion  CA.2,  necesitamos  algunas  reglas  respecto  de 
la  diferenciacion  de  matrices. 


REG  LA  1 


Si  a'  =  [0|  02  .  .  .  an]  es  un  vector  renglon  de  numeros  y 

*1 

*2 

x  = 

Xn 


es  un  vector  columna  de  las  variables  x-\,  X2,  .  .  . ,  xn,  entonces 


3(a'x)  _ 
“3X-- 


a  1 

02 


On 


REGLA  2 


Considere  la  matriz  x'Ax  tal  que 


Entonces, 


on 

a  12  • 

•  Oin 

x'Ax  =  [xi  *2 

Xn] 

021 

022  • 

•  02n 

-Onl 

On2 

Onn- 

a(x'Ax) 

ax 


=  2  Ax 


que  es  un  vector  columna  de  n  elementos,  o 


a(x'Ax) 

ax 


=  2x'A 


que  es  un  vector  renglon  de  n  elementos. 


Referencias 


Chiang,  Alpha  C.,  Fundamental  Methods  of  Mathematical  Economics,  3a.  ed.,  McGraw- 
Hill,  Nueva  York,  1984,  capitulos  4  y  5.  Alii  se  presenta  un  analisis  elemental. 

Hadley,  G.,  Linear  Algebra,  Addison- Wesley,  Reading,  Massachusetts,  1961.  Es  un 
analisis  avanzado. 


Apendice 


Metodo  matricial 
para  el  modelo 
de  regresion  lineal 

En  este  apendice  presentamos  el  modelo  clasico  de  regresion  lineal  de  k  variables  (Yy  X2,X2, . . . , 
X/c)  en  notacion  de  algebra  matricial.  En  teoria,  el  modelo  de  k  variables  es  una  extension  logica 
de  los  modelos  de  dos  y  tres  variables  considerados  hasta  ahora  en  este  texto.  Por  consiguiente,  en 
este  capitulo  veremos  muy  pocos  conceptos  nuevos,  a  exception  de  la  notacion  matricial.1 

Una  gran  ventaja  del  algebra  matricial  sobre  la  escalar  (algebra  elemental  que  trata  con  es- 
calares  o  numeros  reales)  es  que  proporciona  un  metodo  compacto  de  manejo  de  modelos  de 
regresion  que  implican  cualquier  numero  de  variables;  una  vez  formulado  y  resuelto  en  notacion 
matricial  el  modelo  de  k  variables,  la  solution  es  aplicable  a  una,  dos,  tres  o  cualquier  numero 
de  variables. 


C.l 


Modelo  de  regresion  lineal  con  k  variables 


Si  generalizamos  los  modelos  de  regresion  lineal  de  dos  y  tres  variables,  el  modelo  de  regresion 
poblacional  de  k  variables  (FRP)  con  la  variable  dependiente  Y  y  k  —  1  variables  explicativas  X2, 
X3, .  .  . ,  Xk  pucdc  escribirse  asi: 


FRP:  Yj  —  f 1]  +  faX2  i  +  faX2  i  +  ■  ■  ■  +  faXki  +  Ui  i  —  1,2,3, ...  ,n 

(C.1.1) 


donde  /b  =  el  intercepto,  fh  a  fa  —  coeficientes  parciales  de  pendientes,  u  —  termino  de  pertur- 
bacion  estocastica  e  i  —  /-esima  observacion,  con  11  como  tarnano  de  la  poblacion.  La  FRP  (C.1.1) 
se  interpreta  en  la  forma  usual:  la  media  o  el  valor  esperado  de  Y condicionado  a  los  valores  fijos 
(en  muestreo  repetido)  de X2, X2, . .  . , X^,  es  decir,  E(Y\  X2 X^, . . . , Xfa). 


1  Los  lectores  que  no  esten  familiarizados  con  el  algebra  matricial  deben  revisar  el  apendice  B  antes  de 
continuar.  El  apendice  B  proporciona  las  bases  del  algebra  matricial  requeridas  para  comprender  este 
capftulo. 
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La  ecuacion  (C.1.1)  es  una  expresion  abreviada  para  el  siguiente  conjunto  de  n  ecuaciones 
simultaneas: 


Li  —  Pi  +  P2X2 1  +  P3X3  !  +  ■■•  +  PkXk\  +  u  1 

Y2  —  Pi  +  P2X22  +  PiX32  +  ■  ■  •  +  PkX a-2  +  u  2  (C.1 .2) 


Yn  —  Pi  +  P2X2  n  +  PiX3  „  +  ■  ■  ■  +  PkXkn  +  «h 


El  sistema  de  ecuaciones  (C.  1 .2)  se  escribe  en  una  forma  alterna  aunque  mas  ilustrativa:2 


'Ll' 

'l 

X2I 

X31  ■■ 

xkl ' 

~  Pi ' 

U\ 

l2 

= 

1 

X22 

x32  ■  ■ 

xk2 

Pi 

+ 

U2 

_Y„  _ 

_1 

X2„ 

X3„  ■  ■ 

X-kn  _ 

_Pk_ 

_  _ 

y 

= 

X 

P 

+ 

u 

n  x  1 

n  x  k 

A'  x  1 

nxl 

(C.1. 3) 


donde  y  =  vector  columna  n  x  1  de  observaciones  sobre  la  variable  dependiente  Y 

X  =  matriz  n  x  h,  con  n  observaciones  sobre  las  k  —  1  variables  X2  a  Xk,  y  la  primera 
columna  de  numeros  1  representa  el  termino  del  intercepto.  (Esta  matriz  se  conoce 
tambien  como  matriz  de  datos.) 

P  =  vector  columna  k  x  1  de  los  parametros  desconocidos  f5\,  @2,  ■  ■  ■ ,  Pk 
u  =  vector  columna  n  x  I  de  n  perturbaciones  u, 

Con  las  reglas  de  multiplicacion  y  adicion  de  matrices,  el  lector  debe  verificar  que  los  sistemas 
(C.1. 2)  y  (C.1. 3)  sean  equivalentes. 

El  sistema  (C.1. 3)  se  conoce  como  representation  matricial  del  modelo  de  regresion  lineal 
general  (de  k  variables).  Se  escribe  en  forma  mas  compacta  como 


y  =  x  p  +  u 

«xl  n  x  k  k  x  l  n  x  1 


(C.1. 4) 


Donde  no  haya  confusion  sobre  las  dimensiones  u  ordenes  de  la  matriz  X  y  de  los  vectores  v.  (3  y 
u,  la  ecuacion  (C.1. 4)  se  escribe  tan  solo  como: 


y  =  Xp  +  u  (C.1. 5) 

Como  ilustracion  de  la  representacion  matricial,  considere  el  modelo  de  dos  variables  con- 
sumo-ingreso  del  capitulo  3,  a  saber:  Y,  —  +  p2Xj  +  u„  donde  Y  es  el  gasto  de  consumo  y  X 

es  el  ingreso. 


2  Segun  la  notacion  del  apendice  B,  los  vectores  se  representan  con  letras  minusculas  en  negritas  y  las  ma¬ 
trices  con  letras  mayusculas  en  negritas. 
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Con  la  informacion  de  la  tabla  3.2  podemos  escribir  la  formulation  matricial  asi: 


70 

1  80 

U 1 

65 

1  100 

111 

90 

1  120 

Ul 

95 

1  140 

II4 

110 

115 

= 

1  160 

1  180 

Pi 

Pi 

+ 

U5 

«6 

120 

1  200 

Uj 

140 

1  220 

U& 

155 

1  240 

Ug 

_150_ 

1  260  _ 

_Mio_ 

y 

= 

X 

P 

+ 

U 

10  x  1 

10  x  2 

2  x  1 

10  x  1 

(C.1.6) 


Como  en  los  casos  de  dos  y  tres  variables,  el  objetivo  es  estimar  los  parameters  de  la  regresion 
multiple  (C.  1 . 1)  y  efectuar  inferencias  sobre  ellos  a  partir  de  la  informacion  disponible.  En  la  no¬ 
tation  matricial  esto  equivale  a  estimar  (1  y  a  inferir  sobre  el.  Para  fines  de  estimation,  podemos 
utilizar  el  metodo  de  minimos  cuadrados  ordinarios  (MCO)  o  el  metodo  de  maxima  verosimilitud 
(MV).  Pero,  como  ya  mencionamos,  estos  dos  metodos  producen  valores  estimados  identicos 
de  los  coeficientes  de  regresion.3  Por  consiguiente,  limitaremos  nuestra  atencion  al  metodo  de 
MCO. 

C.2  Supuestos  del  modelo  clasico  de  regresion  lineal 
en  notacion  matricial 


Los  supuestos  en  los  cuales  se  basa  el  modelo  clasico  de  regresion  lineal  estan  en  la  tabla  C.l; 
se  presentan  en  notacion  escalar  y  en  notacion  matricial.  El  supuesto  1  de  (C.2. 1 )  significa  que 
el  valor  esperado  del  vector  de  perturbaciones  u,  es  decir,  de  cada  uno  de  sus  elementos,  es  cero. 
Mas  explicitamente,  £(u)  =  0  significa 


U\ 

E(U\) 

'0 

u2 

= 

E(u2 ) 

= 

0 

un 

_E(u„)_ 

_0_ 

(C.2. 1 ) 


El  supuesto  2  [ecuacion  (C.2. 2)]  es  una  forma  compacta  de  expresar  los  dos  supuestos  de 
(3.2.5)  y  (3.2.2)  con  notacion  escalar.  Para  ver  esto,  escribimos 


E(  uu)  =  E 


ll  l 

u2 


u 


n 


[in 


U  2 


Un\ 


3  La  prueba  de  que  esto  es  asf  en  el  caso  de  k  variables  se  encuentra  en  las  notas  del  capitulo  4. 
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TABLAC.1 

Supuestos  del  modelo 
clasico  de  regresion 
lineal 


Notacion  escalar 


E(ui)  =  0, 

para  cada  / 

(3.2.1) 

E(Ui,Uj)  =  0 

'V/ 

(3.2.5) 

=  a2 

'V/ 

(3.2.2) 

3.  X2,  X3 ,  . .  . ,  Xk  son  fijas 
o  no  estocasticas 

4.  No  hay  relacion  lineal  exacta  (7.1 .9) 
entre  las  variables  X;  es  decir, 

no  hay  multicolinealidad 

5.  Para  las  pruebas  de  hipotesis  (4.2.4) 
Uj  ~  N( 0,  a2) 


Notacion  matricial 

1 .  f (u)  =  0 

donde  u  y  0  son  vectores  columna 
n  x  1 ,  con  0  como  vector  nulo 

2.  F(uu')  =  ff2l 

donde  I  es  una  matriz  de  identidad 
n  x  n 

3.  La  matriz  X,  n  x  k  es  no  estocastica; 
es  decir,  consiste  en  un  conjunto  de 
numeros  fijos 

4.  El  rango  de  X  es  p(X)  =  k,  donde  k  es  el 
numero  de  columnas  en  X  y  k  es  menor 
que  el  numero  de  observaciones,  n 

5.  El  vector  u  tiene  una  distribucion  normal 
multivariada,  es  decir,  u  ~  N( 0,  ct2I) 


donde  u'  es  la  traspuesta  del  vector  columna  u,  o  vector  renglon.  A1  efectuar  la  multiplicacion, 
obtenemos 


E(uu')  =  E 

u\ 

U2U 1 

U\U2 

«2  ‘ 

*  U  \  Un 

•  U2Un 

—  UyiU\ 

UyiH  2 

■  ul 

A1  aplicar  el  operador  de  valor  esperado  E  a  cada  elemento  de  la  matriz  anterior,  obtenemos 


E(uu')  = 


E(u 2)  E(u\U2) 
E(ii2U\)  E(u  2) 


E(unii\)  E{unui) 


E(u\un ) 
E(U2Un ) 


E{ul)  J 


(C.2.2) 


Debido  a  los  supuestos  de  homoscedasticidad  y  de  no  correlacion  serial,  la  matriz  (C.2.2)  se 
reduce  a 


a2 

0 

0  ■■■ 

0 

^(uuO  = 

0 

a2 

0  ■■■ 

0 

_  0 

0 

0  ■■■ 

a1 

"l 

0 

0  ■■■ 

0" 

0 

1 

0  ■■■ 

0 

_0 

0 

0  ■■■ 

1_ 

=  cr2I 


donde  I  es  una  matriz  identidad  n  x  n. 

La  matriz  (C.2.2)  [y  su  representacion  en  (C.2.3)]  se  denomina  matriz  de  varianza-cova- 
rianza  de  las  perturbaciones  u{,  los  elementos  sobre  la  diagonal  principal  (que  van  de  la  esquina 
superior  izquierda  a  la  esquina  inferior  derecha)  de  esta  matriz  dan  las  varianzas,  y  los  elementos 
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por  fuera  de  la  diagonal  principal  dan  las  covarianzas.4  Observe  que  la  matriz  de  varianza-cova- 
rianza  es  simetrica:  los  elementos  por  encima  y  por  debajo  de  la  diagonal  principal  son  reflejos 
unos  de  los  otros. 

El  supuesto  3  de  la  tabla  C.l  establece  que  la  matriz  X  de  n  x  k  es  no  estocastica;  es  decir, 
consta  de  numeros  fijos.  Como  ya  dijimos,  el  analisis  de  regresion  es  de  regresion  condicional, 
es  decir,  condicional  a  los  valores  fijos  de  las  variables  * 

El  supuesto  4  establece  que  la  matriz  X  tiene  rango  columna  completo  igual  a  k,  el  numero 
de  columnas  en  la  matriz.  Esto  significa  que  las  columnas  de  la  matriz  X  son  linealmente  inde- 
pendientes;  es  decir,  no  hay  relacion  lineal  exacta  entre  las  variables  X.  En  otras  palabras,  no 
hay  multicolinealidad.  En  notacion  escalar  esto  equivale  a  decir  que  no  existe  un  conjunto  de 
numeros  A-i,  X.2, . . . ,  *£  —  0  no  todos  iguales  a  cero  tales  que  [cf.  (7.1.8)] 


*1*1, ■  +  *2*2/  +  '  '  '  +  *1 -Xki  —  0  (C.2.4) 

donde Xu—  1  para  todo  i  (para  dar  cabida  a  la  columna  de  numeros  1  en  la  matriz  X).  En  notacion 
matricial,  (C.2.4)  se  representa  como 


*'x  =  0  (C.2.5) 

donde  X  es  un  vector  renglon  de  1  x  k  y  x  es  un  vector  columna  de  k  x  1 . 

Si  existe  una  relacion  lineal  exacta  como  (C.2.4),  se  dice  que  las  variables  son  colineales.  Si, 
por  otra  parte,  (C.2.4)  se  cumple  solo  si  *i  =  X  —  *3  =  •  •  ■  =  0,  entonces  se  dice  que  las  variables 
X  son  linealmente  independientes.  Dimos  una  razon  intuitiva  para  el  supuesto  de  no  multicolinea¬ 
lidad  en  el  capitulo  7,  y  analizamos  mas  a  fondo  este  supuesto  en  el  capitulo  10. 


C.3  Estimacion  por  MCO 


Para  obtener  la  estimacion  por  MCO  de  (1.  primero  escribimos  la  regresion  muestral  de  ^-varia¬ 
bles  (FRM): 

Yi  —  Pi  +  #2*2/  +  #3*3/  +  '  '  '  +  PkXki  +  Ui  (C.B.1) 


la  cual  se  escribe  en  forma  mas  compacta  en  notacion  matricial  como: 

y  =  Xp  +  u 

y  en  forma  matricial  como 


- i 

• 

_ 1 

_ 

"l 

1 

*21 

*22 

*31  ■■ 

*32  ‘  ‘ 

*H 

Xk2 

_ Y„_ 

_1 

*2/i 

*3h  ■■ 

X-kn 

y 

= 

X 

(ixl 

n  x  k 

"A" 

u  l 

h 

+ 

ui 

-1 

-h- 

_  un  _ 

P 

k  x  1 


u 

n  x  1 


(C.3. 2) 


(C.3. 3) 


donde  P  es  un  vector  columna  de  k  elementos  compuesto  por  los  estimadores  de  MCO  de  los 
coeficientes  de  regresion,  y  donde  u  es  un  vector  columna  de  n  x  1  con  n  residuos. 


4  Por  definicion,  la  varianza  de  u(-  =  E[u,  —  £(u,)]2  y  la  covarianza  entre  Uj  y  Uj  =  E[u ,•  —  £(u,)][uy  -  E(uj)].  Pero, 
debido  al  supuesto  £(u/)  =  0  para  cada  i,  tenemos  la  matriz  de  varianza-covarianza  (C.2.3). 
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Como  en  los  modelos  de  dos  y  tres  variables,  en  el  caso  de  k  variables  los  estimadores  de  MCO 
se  obtienen  al  reducir 

J2  fa  =  E(7'  -  fa  ~  foX2i - faXkif  (C.3.4) 

donde  E  uj  es  la  suma  de  cuadrados  residual  (SCR).  En  notacion  matricial,  esto  equivale  a  re¬ 
ducir  u'u,  pues 


u'u  =  [«i  ii2 

Ahora,  de  (C.3.2)  obtenemos 

Por  consiguiente, 


u  1 

ii2 


—  u\  +  «2  H - b  u2n  —  E 


u  =  y-  Xp 

u'u  =  (y-XP)'(y-XP) 

=  y'y-2p'X'y  +  p'X'Xp 


(C.3.5) 


(C.3.6) 


(C.3.7) 


donde  aprovechamos  las  propiedades  de  la  traspuesta  de  una  matriz,  a  saber:  (XP)'  =  P'X';  y, 
como  P'X'y  es  un  escalar  (un  numero  real),  es  igual  a  su  traspuesta  y'Xp. 

La  ecuacion  (C.3.7)  es  la  representation  matricial  de  (C.3.4).  En  notacion  escalar,  el  metodo 
de  MCO  consiste  en  estimar  P\,p2,...,pk  de  manera  que  E  uj  sea  lo  mas  pequeno  posible.  Esto 
se  logra  al  diferenciar  parcialmente  (C.3.4)  respecto  de  fa,  fa, ... ,  fa  e  igualar  a  cero  las  expre- 
siones  resultantes.  Este  proceso  produce  k  ecuaciones  simultaneas  con  k  incognitas,  que  son  las 
ecuaciones  normales  de  la  teoria  de  minimos  cuadrados.  Como  se  ve  en  el  apendice  CA,  seccion 
CA.l,  estas  ecuaciones  son  las  siguientes: 


nfa+faJ2X2i+faJ2X^ 

+ ... 

+  fa  J2  Xk'  = 

faJ2x*  + 

E.  X2iX2j  + 

— b 

faJ2X2  iXki  = 

EX*Y‘ 

faJ2x*  + 

fa  E,x*x»  + 

faJ2xl  +  - 

•  •  + 

faj^Wki  = 

Ex^ 

fa  J2Xkt  + 

fa  J2xk,x2l  + 

fa  Ex*x* 

+ ... 

+  &!>*  = 

EX«Y‘ 

(c.3.8  y- 

En  forma 

matricial,  la 

ecuacion  (C.3.8) 

se  representa  de  la  siguiente  manera 

n 

E  X2i 

E  Xu 

1 - 

w 

fa 

r  1  1 

1 1 

Yi 

EX2i 

Exl 

E  X2iX3i 

E  x2i  xki 

fa 

X21  X22 

■■■  X2n 

y2 

E*« 

ZX3  iX2i 

E4r  ■■■ 

EXaXki 

fa 

— 

x3i  x32 

X3n 

Yi 

_T,xki 

Exk,x2i 

E  Xki  X3i  ■■■ 

- 1 

w 

-fa. 

-Xki  xk2 

Xkn_ 

Yn 

(X'X) 

P 

K' 

y 

(C.3.9) 


5  Estas  ecuaciones  pueden  recordarse  facilmente.  Empiece  con  la  ecuacion  V)  =  Pi  +  faXn  + 

/S3X3/  H - 1-  fSkXki-  Al  sumar  esta  ecuacion  sobre  los  n  valores  se  obtiene  la  primera  ecuacion  de  (C.3.8);  al 

multiplicar  esta  por  X2  en  ambos  lados  y  sumar  sobre  n  se  obtiene  la  segunda  ecuacion;  multiplique  esta  por 
X3  en  ambos  lados  y  sume  sobre  n  para  obtener  la  tercera  ecuacion,  y  asf  sucesivamente.  A  proposito,  ob¬ 
serve  que  a  partir  de  la  primera  ecuacion  en  (C.3.8)  resulta  p-\  =  Y  —  j), 2X2  —  ■■  ■  —  Pk%k  [consulte  (7.4.6)]. 
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o,  en  forma  mas  compacta,  como 

(X'X)P  =  X'y  (C.3.10) 

Note  las  siguientes  caracteristicas  de  la  matriz  (X'X):  1)  Proporciona  las  sumas  simples  de 
cuadrados  y  productos  cruzados  de  las  variables  X ,  una  de  las  cuales  es  el  termino  del  intercepto 
que  toma  el  valor  1  para  cada  observacion.  Los  elementos  sobre  la  diagonal  principal  dan  las 
sumas  simples  de  cuadrados  y  los  que  no  estan  en  la  diagonal  principal  dan  las  sumas  simples  de 
productos  cruzados  (por  simples  nos  referimos  a  que  estan  expresadas  en  las  unidades  originales 
de  medicion).  2)  Es  simetrica,  pues  el  producto  cruzado  entre  X2 ,•  y  X2i  es  el  mismo  que  entre  X2i 
y  X2 3)  Es  de  orden  (k  x  k),  es  decir,  tiene  l<  renglones  y  k  columnas. 

En  (C.3.10),  las  cantidades  conocidas  son  (X'X)  y  (X'y)  (el  producto  cruzado  entre  las  varia¬ 
bles  X  y  y)  y  la  incognita  es  (1.  Ahora,  mediante  algebra  matricial,  si  existe  la  inversa  de  (X'X), 
es  decir,  (X'X)-1,  entonces  premultiplicamos  ambos  lados  de  (C.3.10)  por  esta  inversa  para  ob- 
tener 


(X'X)-1(X'X)P  =  (X'X)-1  X'y 

Pero,  como  (X'X)-1  (X'X)  =  I  es  una  matriz  identidad  de  orden  k  x  k,  obtenemos 

IP  =  (X'X)-1  X'y 


o 


P  =  (X'X)-1  X'  y 
1x1  k  x  k  (lx«)(n  x  1) 


(C.3.11) 


La  ecuacion  (C.3.11)  es  un  resultado  fundamental  de  la  teorla  de  MCO  en  notation  ma¬ 
tricial.  Muestra  como  se  estima  el  vector  P  a  partir  de  la  information  dada.  Aunque  (C.3.1 1)  se 
obtuvo  de  (C.3.9),  se  puede  obtener  directamente  de  (C.3.7)  al  diferenciar  u'u  respecto  de  p.  La 
prueba  se  da  en  el  apendice  CA,  section  CA.2. 


Una  ilustracion 

Como  ilustracion  de  los  metodos  matriciales  desarrollados  hasta  el  momento,  analicemos  de 
nuevo  el  ejemplo  de  consumo-ingreso  con  los  datos  de  la  ecuacion  (C.1.6).  Para  el  caso  de  dos 
variables  tenemos 


y 


(X'X)  = 


l  l 

x2  x3 


1 


1  Xx 

1  x2 

1  X3 
1  XN 


n  J2X‘ 
Ex  Exi 


1  1 

X2  x3 


1 

Xn 


Yx 

y2 

Y3 


Y„ 


T,Yi 

EX'Yi 
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Con  la  informacion  de  (C.1.6),  obtenemos 


XX  = 


10  1  700 

1  700  322  000 


y 


X'y  = 


1  110 
205  500 


Recurrimos  a  las  reglas  de  inversion  de  matriz  del  apendice  B,  seccion  B.3,  y  vemos  que  la  in- 
versa  de  la  matriz  (X'X)  anterior  es 


Por  consiguiente, 


X'X-1 


0.97576  -0.005152 

-0.005152  0.0000303 


0.97576 

-0.005152 

1  110' 

-0.005152 

0.0000303 

205  500 

24.4545 

0.5079 


Con  la  computadora  obtuvimos  Pi  —  24.4545  y  fc  —  0.5091.  La  diferencia  entre  las  dos  esti- 
maciones  se  debe  a  errores  de  redondeo.  A  proposito,  observe  que  al  trabajar  con  calculadora  de 
escritorio,  es  esencial  obtener  resultados  con  un  numero  significativo  de  digitos  para  reducir  los 
errores  de  redondeo. 


Matriz  de  varianza-covarianza  de  p 

Los  metodos  matriciales  permiten  desarrollar  formulas  no  solo  para  la  varianza  de  /!„  cualquier 
elemento  dado  de  P,  sino  tambien  para  la  covarianza  entre  dos  elementos  de  P  cualesquiera,  por 
ejemplo,  fi,  y  Pj.  Se  necesitan  estas  varianzas  y  covarianzas  para  fines  de  inferencia  estadistica. 
Por  definicion,  la  matriz  de  varianza-covarianza  de  P  es  [consulte  (C.2.2)] 

var-cov(P)  =  £{[P  -  £(P)][P  -  £(p)]'} 


la  cual  se  escribe  explicitamente  como 


var-cov(P)  = 


var(y3i)  cov(j6i,/32) 
cov(^2,  Pi)  var(/32) 


_cov 0k,  fa)  co v(pk,p2) 


cov(/Si,  pk) 
CO v(P2,Pk) 

var  (pk)  _ 


(C.3.12) 

Se  muestra  en  el  apendice  CA,  seccion  CA.3,  que  la  matriz  anterior  de  varianza-covarianza  se 
obtiene  a  partir  de  la  siguiente  formula: 

var-cov(P)  =  ct2(X'X)_1  (C.3.13) 

donde  ct2  es  la  varianza  homoscedastica  de  u,  y  (X'X)-1  es  la  matriz  inversa  que  aparece  en  la 
ecuacion  (C.3.1 1),  la  cual  da  el  estimador  de  MCO,  p. 
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En  los  modelos  de  regresion  lineal  con  dos  y  tres  variables,  un  estimador  insesgado  de  a2 
estaba  dado  por  a1  —  w2 /( n  —  2)  y  d2  =  £  u2 /( n  —  3),  respectivamente.  En  el  caso  de  k  va¬ 
riables,  la  formula  correspondiente  es 


u'u 

n  —  k 


(C.3.14) 


donde  ahora  hay  n  —  k  gl.  (^Por  que?) 

Aunque,  en  principio,  u'u  se  calcula  a  partir  de  los  residuos  estimados,  en  la  practica  se  ob- 
tiene  directamente  de  la  siguiente  manera.  Recuerde  que  Y2  u]  (=  SCR)  =  SCT  —  SCE,  y  en  el 


caso  de  dos  variables  podemos  escribir 

=  (3-3-6> 

y  en  el  caso  de  tres  variables 

^2  u2i  =  ^2  yf  -  Pi  yiX2i  -  Pi  ^2  y‘x*  (7.4. 1 9) 

A1  extender  este  principio,  se  ve  que  para  el  modelo  de  k  variables 

J2^  =  J2y?  ~  P2  I ZyiX 2i - PkJ2yiXki  (C.3.15) 

En  notation  matricial, 

SCT:  J2yf=yy-nf2  (C.3.16) 

SCE:  p2  J2yi*2i  + - \-Pk  Y2yiXki  -  P'X'y  -  nf2  (C.3.17) 


donde  el  termino  Y2  se  conoce  como  correccion  para  la  media.6  Por  consiguiente, 


u'u  =  y'y  -  p'X'y 


(C.3.18) 


Una  vez  obtenida  u'u,  a2  se  calcula  facilmente  de  (C.3.14),  lo  cual,  a  su  vez,  permite  estimar  la 
matriz  de  varianza-covarianza  (C.3.13). 

Para  nuestro  ejemplo  ilustrativo, 


u'u  =  132  100-  [24.4545 
=  337.373 


0.5091] 


1  110 
205  500 


Por  tanto,  <x2  =  (337.273/8)  =  42.1591,  que  es  aproximadamente  el  valor  obtenido  ya  en  el 
capitulo  3. 


6  biota-.  J2  Y?  =  ~  Y)2  =  ]C  Y2  ~  nY2  =  y'y  —  nY2-  Por  consiguiente,  sin  el  termino  de  correccion,  y'y 

dara  tan  solo  la  suma  sencilla  de  cuadrados,  no  la  suma  de  las  desviaciones  al  cuadrado. 
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C.4 


Propiedades  del  vector  de  MCO  p 

En  los  casos  de  dos  y  tres  variables,  sabemos  que  los  estimadores  de  MCO  son  lineales  e  in- 
sesgados,  y  en  la  clase  de  todos  los  estimadores  lineales  e  insesgados,  estos  tienen  varianza 
minima  (propiedad  de  Gauss-Markov).  En  resumen,  los  estimadores  de  MCO  son  los  mejores 
estimadores  lineales  insesgados  (MELI).  Esta  propiedad  se  extiende  a  todo  el  vector  P;  es  decir, 
P  es  lineal  (cada  uno  de  sus  elementos  es  una  funcion  lineal  de  Y,  la  variable  dependiente). 
E(P)  =  p,  es  decir,  el  valor  esperado  de  cada  elemento  de  P  es  igual  al  elemento  correspondiente  de 
la  verdadera  P,  y  en  la  clase  de  todos  los  estimadores  lineales  e  insesgados  de  P,  el  estimador 
de  MCO,  P  tiene  varianza  minima. 

La  prueba  se  da  en  el  apendice  CA,  seccion  CA.4.  Como  establecimos  en  la  introduccion,  el 
caso  de  k  variables  es,  en  su  mayoria,  una  extension  directa  de  los  casos  de  dos  y  tres  variables. 


Coeficiente  de  determinacion  R 2  en  notacion  matricial 

El  coeficiente  de  determinacion  R2  se  ha  definido  como 


R  = 


SCE 

SCT 


En  el  caso  de  dos  variables, 


E  yf 


(3.5.6) 


y  en  el  caso  de  tres  variables 


,2  _  ft  E  Yix2i  +  ft  E  yixX 


R 


E  > : 


(7.5.5) 


Si  generalizamos,  para  el  caso  de  k  variables  obtenemos 


n2  ft  J2  ViX2i  +  ft  E  yix3i  H - b  ft  E  yi*ki 


(C.4.1) 


Con  (C.3.16)  y  (C.3.17),  la  ecuacion  (C.4.1)  se  escribe  como 


R2  = 


P'X'y  —  nY2 
y'y  -  nY2 


(C.4.2) 


lo  cual  da  la  representacion  matricial  de  R2. 
Para  nuestro  ejemplo  ilustrativo, 


P'X'y  =  [24.3571  0.5079] 

=  131  409.831 
y'y  =  132  100 


i  no 

205  500 


y 


nY 2  =  123  210 


Al  reemplazar  estos  valores  en  (C.4.2)  vemos  que  R2  —  0.9224,  que  se  acerca  al  valor  obtenido 
antes,  salvo  por  errores  de  redondeo. 
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C.5  Matriz  de  correlacion 


En  los  capitulos  anteriores  encontramos  los  coeficientes  de  correlacion  de  orden  cero  o  simple, 
f\ 2,  rn,  ^23,  y  las  correlaciones  parciales  o  de  primer  orden,  ri2.3,  H3.2,  ^23.1,  y  sus  interrelacio- 
nes.  En  el  caso  de  k  variables  tendremos  en  total  k(k  —  l)/2  coeficientes  de  correlacion  de  orden 
cero.  fi'.Por  que?)  Estas  k(k  —  l)/2  correlaciones  se  situan  en  una  matriz,  denominada  matriz  de 
correlacion  R,  de  la  siguiente  manera: 


r  11 

r  12 

r\ 3  • 

■  nk 

R  = 

rn 

m 

rn,  • 

■  r2k 

_  n-i 

m 

n 3  ■ 

■  rkk_ 

"  1 

r\2 

r\  3  ■ 

■  nk~ 

= 

r2  1 

1 

rn  ■ 

■  r2k 

_rk\ 

rn 

rn  ■ 

■  1  _ 

donde  el  subindice  1 ,  como  antes,  denota  la  variable  dependiente  Y  (r\2  significa  el  coeficiente  de 
correlacion  entre  Y  y  X2,  y  asi  sucesivamente),  y  donde  se  aplica  el  hecho  de  que  el  coeficiente 
de  correlacion  de  una  variable  respecto  de  ella  misma  es  siempre  1  (ri  1  =  r22  =  ■  ■  ■  =  rkk  =  1). 

A  partir  de  la  matriz  de  correlacion  R  se  obtienen  los  coeficientes  de  correlacion  de  primer 
orden  (vease  el  capitulo  7)  y  de  ordenes  superiores  como  r\ 234. ..k-  (ejercicio  C.4.)  Muchos  pro- 
gramas  de  computadora  calcidan  mediante  rutinas  la  matriz  R.  Utilizamos  la  matriz  de  correla¬ 
cion  en  el  capitulo  10. 


C.6  Pruebas  de  hipotesis  sobre  coeficientes  de  regresion 
individuales  en  notacion  matricial 


Por  las  razones  expresadas  en  los  capitulos  anteriores,  si  el  objetivo  es  tanto  la  inferencia  como  la 
estimacion,  tenemos  que  suponer  que  las  perturbaciones  n,  siguen  alguna  distribucion  de  proba- 
bilidad.  Ademas,  por  las  razones  ya  citadas,  en  el  analisis  de  regresion  suele  suponerse  que  cada 
m,  sigue  una  distribucion  normal  con  media  cero  y  varianza  constante  a2.  En  notacion  matricial, 
tenemos 


u~A(0,cr2I)  (C.6.1) 

donde  u  y  0  son  vectores  columna  n  x  1  e  I  es  una  matriz  identidad  (n  x  ri),  con  0  como  vector 

nulo. 

Con  el  supuesto  de  normalidad,  sabemos  que  en  los  modelos  de  regresion  lineal  de  dos  y  tres 
variables  ( 1)  el  estimador  de  MCO  (>„  y  el  estimador  de  MV  fi,  son  identicos,  pero  el  estimador 
de  MV  ~  a2  es  sesgado,  aunque  este  sesgo  se  elimina  mediante  el  estimador  de  MCO  insesgado 
a1;  y  (2)  los  estimadores  de  MCO  /<„  tambien  estan  normalmente  distribuidos.  Para  generalizar, 
en  el  caso  de  k  variables  es  posible  demostrar  que 

p  ~  V[p,cr2(X'X)-1]  (C.6. 2) 

es  decir,  cada  elemento  de  (3  esta  normalmente  distribuido  con  media  igual  al  elemento  corres- 
pondiente  del  verdadero  P  y  la  varianza  esta  dada  por  a2  veces  el  elemento  correspondiente  de  la 
diagonal  de  la  matriz  inversa  (X'X)-1. 
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Como  en  la  practica  se  desconoce  cr2,  se  estima  mediante  a2.  Entonces,  por  el  cambio  usual 
a  la  distribucion  t,  se  cumple  que  cada  elemento  de  (1  sigue  la  distribucion  t  con  n  —  k  gl.  Sim- 
bolicamente, 


fr  -  Pi 

ee(A) 


(C.6.3) 


con  n  —  k  gl,  donde  ft  es  cualquier  elemento  de  p. 

Por  consiguiente,  la  distribucion  t  sirve  para  probar  hipotesis  sobre  el  verdadero  ft  y  establecer 
intervalos  de  confianza  sobre  el.  Ya  ilustramos  el  verdadero  mecanismo  en  los  capitulos  5  y  8. 
Para  ver  un  ejemplo  completo,  consulte  la  seccion  C.10. 


C.7  Prueba  de  significancia  global  de  la  regresion: 
analisis  de  varianza  en  notacion  matricial 


En  el  capitulo  8  desarrollamos  la  tecnica  ANOVA  1)  para  probar  la  significancia  global  de  la 
regresion  estimada,  es  decir,  para  probar  la  hipotesis  nula  de  que  los  verdaderos  coeficientes 
de  pendiente  (parciales)  son  simultaneamente  iguales  a  cero,  y  2)  para  evaluar  la  contribution 
incremental  de  una  variable  explicativa.  La  tecnica  ANOVA  se  amplia  facilmente  al  caso  de  k 
variables.  Recuerde  que  la  tecnica  ANOVA  consiste  en  descomponer  la  SCT  en  dos  componen- 
tes:  la  SCE  y  la  SCR.  Ya  dimos  las  expresiones  matriciales  para  estas  tres  sumas  de  cuadrados  en 
(C.3.16),  (C.3.17)  y  (C.3.18),  respectivamente.  Los  grados  de  libertad  asociados  con  estas  sumas 
de  cuadrados  son n—  1  ,k—  1  y  n  —  k,  respectivamente.  (^Por que?)  Entonces,  segun el  capitulo 
8,  tabla  8.1,  podemos  elaborar  la  tabla  C.2. 

Si  suponemos  que  las  perturbaciones  u,  estan  normalmente  distribuidas  y  la  hipotesis  nula  es 
ft,  =  yS3  =  ■  •  •  =  ft.  =  0  y,  de  acuerdo  con  el  capitulo  8,  se  demuestra  que 

F_  (P;X;y  -nY2)/(k-\) 

(y'y  -  P'X'y )/(n  -  k) 

sigue  la  distribucion  F  con  k  —  1  y  n  —  k  gl. 

En  el  capitulo  8  vimos  que,  segun  los  supuestos  postulados  antes,  existe  una  estrecha  relacion 
entre  F  y  R2,  a  saber: 


R2)(k-  1) 
(l-R2)/(n-k) 


(8.4.11) 


Por  consiguiente,  la  tabla  C.2  ANOVA  se  expresa  como  tabla  C.3.  Una  ventaja  de  la  tabla  C.3 
sobre  la  tabla  C.2  es  que  la  totalidad  del  analisis  se  realiza  en  terminos  de  R2;  no  se  requiere  con- 
siderar  el  termino  (y'y  —  n  Y2).  pues  este  se  cancela  en  la  razon  F. 


TABLA  C.2 

Formulacion  matricial 
de  la  tabla  ANOVA  para 
el  modelo  de  regresion 
lineal  con  k  variables 


Origen  de  la  variacion 

Debido  a  la  regresion 

(es  decir,  debido  a  X2/  X3, . . . ,  X^) 


SC 

P'X'y  —  n?2 


gi 

k-  1 


SCM 

pX'y  —  n?2 
k-  1 

y'y  -  P'X'y 


Debido  a  los  residuos 


y'y  -  P'X'y 


n  —  k 


n-k 
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TAB  LA  C.3 

Tabla  ANOVA  de  k  va- 

Origen  de  la  variation 

SC 

gi 

SCM 

riables  en  forma  matri¬ 
cial  en  terminos  de  R 2 

Debido  a  la  regresion 
(es  decir,  debido  a  X2,  ^3/  •  ■ 
Debido  a  los  residuos 

Total 

R2( y'y  -  n?2) 

Xk) 

(1  _  R2)(y’y-nY2) 

/  V2 

y  y  —nr 

k-  1 

n-k 

n-  1 

R2(y'y-nY  ) 
k-  1 

(1  _  R2)(y’y-nY2) 
n  —  k 

C.8  Pruebas  de  restricciones  lineales: 

prueba  F  general  con  notacion  matricial 


En  la  section  8.6  presentamos  la  prueba  general  F  para  verificar  la  validez  de  las  restricciones 
lineales  impuestas  sobre  uno  o  mas  parametros  del  modelo  de  regresion  lineal  de  k  variables. 
Proporcionamos  la  prueba  correspondiente  en  (8.6.9)  [o  su  equivalente,  ecuacion  (8.6.10)].  La 
matriz  correspondiente  a  (8.6.9)  se  deriva  facilmente. 

Sea 

Ur  =  vector  residuo  de  la  regresion  de  minimos  cuadrados  restringidos 
Unr  =  vector  residuo  de  la  regresion  de  minimos  cuadrados  no  restringidos 

Entonces 

UrUr  =  Mr  =  SCR  de  la  region  restringida 

u'NR  Unr  =  J2  »nr  —  SCR  de  la  region  no  restringida 
m  =  numero  de  restricciones  lineales 

k  —  numero  de  parametros  (incluido  el  intercepto)  en  la  regresion  no  restringida 
n  —  numero  de  observaciones 

La  matriz  correspondiente  a  (8.6.9)  es  entonces 

F  __  (”r”r  -  "nr"^/™  (C  8  1) 

(%r“nr)/(«  ~  k) 

que  sigue  la  distribution  F  con  ( m ,  n  —  k) gl.  Como  es  usual,  si  el  valor  F  calculado  a  partir  de 
(C.8.1)  excede  al  valor  F  critico,  rechazamos  la  regresion  restringida;  de  lo  contrario,  no  la  re- 
chazamos. 


C.9 


Prediccion  mediante  regresion  multiple: 


formulacion  matricial 


En  la  seccion  8.8  analizamos,  mediante  notacion  escalar,  la  forma  en  que  la  regresion  multiple 
estimada  predice  (1)  la  media  y  (2)  los  valores  individuates  de  Y,  dados  los  valores  de  las  regre- 
soras  X.  En  esta  seccion  veremos  como  expresar  estas  predicciones  en  forma  matricial.  Tambien 
presentamos  las  formulas  para  estimar  las  varianzas  y  los  errores  estandar  de  los  valores  pronos- 
ticados;  en  el  capitulo  8  vimos  que  estas  formulas  se  trabajan  mejor  mediante  notacion  matricial, 
pues  las  expresiones  escalares  o  algebraicas  de  estas  formulas  llegan  a  ser  inmanejables. 

Prediccion  media 

Sea 

1 

X02 
X03 

_x0k_ 


Xo  = 


(C.9.1) 
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el  vector  de  valores  de  las  variables  X  para  las  cuales  se  desea  predecir  Yq,  la  prediccion  media 
de  Y. 

Ahora  la  regresion  multiple  estimada  en  forma  escalar  es 

Yi  =  tk  +  P2X2  i  +  P3X3  i  +  ■  •  •  +  fcXki  +  Uj  (C.9.2) 


la  cual  en  notacion  matricial  se  escribe  de  manera  compacta  como: 

Y,  =  x;p  (C.9.3) 


donde  x(  =  [1  X2i  X2i  ■  ■  ■  Xki]  y 


Jk_ 


La  ecuacion  (C.9.2)  o  (C.9.3)  es,  por  supuesto,  la  prediccion  media  de  Y,  que  corresponde  a  una 
x'j  dada. 

Si  X,'  es  igual  a  la  de  (C.9.1),  (C.9.3)  se  convierte  en 

(y,|x6)  =  x6P  (c.9.4) 


donde,  por  supuesto,  los  valores  de  xo  estan  especificados.  Observe  que  (C.9.4)  da  una  prediccion 
insesgada  de  E(Y,  |  xo),  pues  E(x 60)  =  xofl.  (^Por  que?) 


Varianza  de  la  prediccion  media 

La  formula  para  estimar  la  varianza  de  (Y0  |  x&)  es  la  siguiente:7 

var  (  Yq  I  x&)  =  a2x6(X'X)-1x0  (C.9.5) 

donde  a2  es  la  varianza  de  xo  son  los  valores  dados  de  las  variables  X para  los  cuales  se  desea 
predecir,  y  (X'X)  es  la  matriz  dada  en  (C.3.9).  En  la  practica  reemplazamos  a 2  por  su  estimador 
insesgado  d2. 

En  la  siguiente  seccion  ilustramos  la  prediccion  media  y  su  varianza. 


Prediccion  individual 

Como  sabemos  de  los  capltulos  5  y  8,  la  prediccion  individual  de  Y(—  Y{t)  tambien  esta  dada  por 
(C.9.3),  o  en  forma  mas  especlfica  por  (C.9.4).  La  diferencia  entre  las  predicciones  de  la  media  y 
la  individual  consiste  en  sus  varianzas. 


Varianza  de  la  prediccion  individual 

La  formula  para  la  varianza  de  una  prediccion  individual  es  la  siguiente:8 

var ( Yq  I  x0)  =  a2[l  +  x^X'X)-^]  (C.9.6) 

donde  var(L0  I  x0)  representa  E[Y0  —  Y0  |  X]2.  En  la  practica,  sustituimos  a2  por  su  estimador 
insesgado  d2.  En  la  siguiente  seccion  ilustraremos  esta  formula. 


7  Para  la  derivacion,  vease  J.  Johnston,  Econometric  Methods,  McGraw-Hill,  3a.  ed.,  Nueva  York,  1 984,  pp. 
195-196. 


Ibid. 
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C.10  Resumen  del  metodo  matricial:  un  ejemplo  ilustrativo 


Considere  los  datos  de  la  tabla  C.4,  los  cuales  pertenecen  al  gasto  de  consumo  personal  per  capita 
(GCPP)  y  al  ingreso  personal  disponible  per  capita  (IPDP),  asi  como  al  tiempo  o  la  variable  de 
tendencia.  Al  incluir  esta  ultima  en  el  modelo,  tratamos  de  averiguar  la  relacion  del  GCPP  con 
el  IPDP  neto  de  la  variable  de  tendencia  (que  puede  representar  una  multitud  de  otros  factores, 
como  tecnologia,  cambio  en  gustos,  etcetera). 

Para  fines  empiricos,  por  consiguiente,  el  modelo  de  regresion  es 

Yi  =  A  +  fan  +  +  «/  (C.  1 0. 1 ) 

donde  Y  —  gasto  de  consumo  per  capita,  X2  =  ingreso  disponible  per  capita  y  X2  —  tiempo.  La 
informacion  requerida  para  efectuar  la  regresion  (C.10.1)  se  proporciona  en  la  tabla  C.4. 

En  notacion  matricial,  el  problema  puede  mostrarse  de  la  siguiente  manera: 


~1  673" 

"l  1  839  l" 

U\ 

1  688 

1  1  844  2 

iii 

1  666 

1  1831  3 

Ut, 

1  735 

1  1  881  4 

«4 

1  749 

1  1  883  5 

Us 

1  756 

1  1  910  6 

u6 

1  815 

1  1  969  7 

"A" 

111 

1  867 

= 

1  2  016  8 

h 

+ 

Us 

1  948 

1  2  126  9 

k 

Ut) 

2  048 

1  2  239  10 

u  10 

2  128 

1  2  336  11 

U 11 

2  165 

1  2  404  12 

u  12 

2  257 

1  2  487  13 

U 13 

2  316 

1  2  535  14 

U 14 

_  2  324_ 

_  1  2  595  15_ 

_U  15  _ 

y 

= 

X 

P 

+ 

U 

15  xl  15  x  3  3x1  15  x  1 


(C.10.2) 


TABLA  C.4 

Gasto  de  consumo 

GCPP,  Y 

IPDP,  X2 

Tiempo,  X2 

GCPP,  Y 

IPDP,  X2 

Tiempo,  X2 

personal  per  capita 

1  673 

1  839 

1  (=  1956) 

1  948 

2  126 

9 

(GCPP)  e  ingreso 

1  688 

1  844 

2 

2  048 

2  239 

10 

personal  disponible  per 

1  666 

1  831 

3 

2  128 

2  336 

11 

capita  (IPDP)  en  Estados 

1  735 

1  881 

4 

2  165 

2  404 

12 

Unidos,  1956-1970,  en 

1  749 

1  883 

5 

2  257 

2  487 

13 

dolares  de  1958 

1  756 

1  910 

6 

2  316 

2  535 

14 

1  815 

1  969 

7 

2  324 

2  595 

15  (  =  1970) 

Fuente:  Economic  Report  of  the 
President,  enero  de  1972,  tabla 

1  867 

2  016 

8 
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De  los  datos  anteriores  obtenemos  los  siguientes  resultados: 


Y  =  1  942.333  X2  =  2  126.333  X3  =  8.0 


JjT,  -  Y)2  =  830  121.333 


-*2)2  =  1  103  111.333  ^(*3,  -  *3)2  =  280.0 


XX  = 


1 

*21 

_*31 


1  1 

*22  *23 

*32  *33 


1 

*2„ 

*3„J 


*21  *31 

*22  *32 

*23  *3  3 

*2  n  *3« 


n 

£*2, 

£*31 

E*21 

£*!• 

£*21*31 

E*31 

£*21*31 

£*31 

15 

31  895 

120 

31  895 

68  922.513 

272  144 

120 

272  144 

1  240 

29  135  _ 

62  905  821 

247  934 

(C.10.3) 


(C.10.4) 


Mediante  las  reglas  de  inversion  de  matrices  del  apendice  B  se  ve  que 


(X'X)-1  = 


37.232491 

-0.0225082 

1.336707 


-0.0225082 

0.0000137 

-0.0008319 


1.336707 

-0.0008319 

0.054034 


Por  consiguiente, 


P  =  (X'JQ-'X'y  = 


300.28625 

0.74198 

8.04356 


(C.10.5) 


(C.10.6) 


La  suma  de  cuadrados  residual  ahora  se  calcula  asi: 


=  y'y  -  P'X'y 

=  57  420  003  -  [300.28625  0.74198  8.04356] 

=  1  976.85574 

(C.10.7) 


29  135 
62  905  821 
247  934 


de  donde  obtenemos 

ct2  =  —  =  164.73797  (C.10.8) 

12  V  ’ 

Por  tanto,  la  matriz  de  varianza-covarianza  para  (1  se  presenta  como 


var-cov(P)  =  <r2(X'X)  1 


6  133.650  -3.70794  220.20634 

-3.70794  0.00226  -0.13705 

220.20634  -0.13705  8.90155  _ 

(C.10.9) 
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Los  elementos  diagonales  de  esta  matriz  dan  las  varianzas  de  ft,  ft  y  ft,  respectivamente,  y  sus 
ralces  cuadradas  positivas  dan  los  errores  estandar  correspondientes. 

De  los  datos  anteriores  se  verifica  facilmente  que 

SCE:  P'X'y  -  nY2  =  828  144.47786  (C.10.10) 

SCT:  y'y  —  nY2  —  830  121.333  (C.10.11) 


Por  consiguiente, 

RlJXy-nY2 
y'y -nY2 

_  828  144.47786 
~  830  121.333 
=  0.99761 


(C.10.12) 


Aplicamos  (7.8.4)  y  se  ve  que  el  coeficiente  de  determinacion  ajustado  es 

R2  =  0.99722  (C.10.13) 


Reunimos  los  resultados  obtenidos  hasta  ahora  y  tenemos 


ri  =  300.28625 

+  0.74198X2/ 

+  8.04356X3; 

(78.31763) 

(0.04753) 

(2.98354) 

t=  (3.83421) 

(15.60956) 

(2.69598) 

R2  =  0.99761  R2  =  0.99722  gl  =  12 


(C.10.14) 


La  interpretacion  de  (C.10.14)  es:  si  tanto  ft  00010X3  reciben  un  valor  fijo  de  cero,  el  valor  pro- 
medio  del  gasto  de  consumo  personal  per  capita  se  estima  alrededor  de  $300.  Como  es  usual,  de- 
bemos  tomar  con  cautela  esta  interpretacion  mecanica  del  intercepto.  El  coeficiente  de  regresion 
parcial  de  0.74198  significa  que,  al  mantener  todas  las  otras  variables  constantes,  un  incremento 
en  el  ingreso  per  capita  de  un  dolar,  por  ejemplo,  es  acompanado  por  un  incremento  en  el  gasto 
de  consumo  personal  per  capita  medio  de  alrededor  de  74  centavos  de  dolar.  En  resumen,  se  es¬ 
tima  que  la  propension  marginal  a  consumir  sea  de  alrededor  de  0.74  o  74%.  En  forma  similar,  si 
mantenemos  constantes  todas  las  otras  variables,  el  gasto  de  consumo  personal  per  capita  medio 
aumento  a  una  tasa  de  alrededor  de  $8  por  ano  durante  el  periodo  del  estudio,  1956-1970.  El  valor 
R2  de  0.9976  muestra  que  las  dos  variables  explicativas  representaron  mas  de  99%  de  la  variation 
en  el  gasto  de  consumo  per  capita  en  Estados  Unidos  de  1956  a  1970.  Aunque  R2  se  reduce  un 
poco,  continua  muy  elevada. 

De  regreso  a  la  significancia  estadistica  de  los  coeficientes  estimados,  a  partir  de  (C.10.14) 
observamos  que  cada  coeficiente  estimado  es  estadisticamente  significativo  individualmente,  en 
un  nivel  de  significancia  de  5%,  por  ejemplo:  las  razones  entre  los  coeficientes  estimados  y  sus 
errores  estandar  (es  decir,  las  razones  t )  son  3.83421,  15.61077  y  2.69598,  respectivamente. 
Mediante  una  prueba  t  de  dos  colas  en  el  nivel  de  significancia  de  5%  observamos  que  el  valor  t 
crltico  para  12  gl  es  2.179.  Cada  valor  t  calculado  excede  este  valor  critico.  Por  tanto,  en  lo  indi¬ 
vidual,  podemos  rechazar  la  hipotesis  nula  de  que  el  verdadero  valor  poblacional  del  coeficiente 
relevante  es  cero. 

Como  ya  vimos,  no  es  posible  aplicar  la  prueba  t  usual  para  verificar  la  hipotesis  de  que  ft 
=  ft  =  0  simultaneamente,  porque  el  procedimiento  de  prueba  t  supone  tomar  una  muestra 
independiente  cada  vez  que  se  aplica  una  prueba  t.  Si  utilizamos  la  misma  muestra  para  probar 
la  hipotesis  sobre  ft  y  ft  al  mismo  tiempo,  es  probable  que  los  estimadores  ft  y  ft  esten  corre- 
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TABLA  C.5 
Tabla  ANOVA  para  los 
datos  de  la  tabla  C.4 


Origen  de  la  variacion 

SC 

gi 

SCM 

Debido  a  X2,  X2 

828  144.47786 

2 

414  072.3893 

Debido  a  los  residuos 

1  976.85574 

12 

164.73797 

Total 

830  121.33360 

14 

lacionados,  lo  que  viola  el  supuesto  en  el  cual  se  basa  el  procedimiento  de  la  prueba  t?  En  reali¬ 
dad,  la  matriz  de  varianza-covarianza  de  (3  de  (C.10.9)  muestra  que  los  estimadores  p2  y  Pi  estan 
correlacionados  negativamente  (la  covarianza  entre  los  dos  es  —0.13705).  Por  tanto,  no  podemos 
utilizar  la  prueba  t  para  probar  la  hipotesis  nula  de  que  p2  —  Pi  —  0. 

Sin  embargo,  recuerde  que  una  hipotesis  nula  como  p2  —  Pi  —  0,  simultaneamente,  se  prueba 
con  la  tecnica  del  analisis  de  varianza  y  la  tradicional  prueba  F,  que  presentamos  en  el  capitulo  8. 
Para  este  problema,  la  tabla  del  analisis  de  varianza  es  la  tabla  C.5.  Segun  los  supuestos  usuales, 
obtenemos 


414  072.3893 
164.73797 


=  2  513.52 


(C. 10.15) 


cuya  distribucion  es  igual  a  la  distribucion  F  con  2  y  12  gl.  El  valor  F  calculado  es,  obviamente, 
muy  significativo;  rechazamos  la  hipotesis  nula  de  que  P2  =  P2  =  0,  es  decir,  el  gasto  de  consumo 
personal  per  capita  no  esta  relacionado  linealmente  con  el  ingreso  disponible  per  capita  ni  con 
la  tendencia. 

En  la  seccion  C.9  estudiamos  el  mecanismo  de  pronostico,  de  la  media  e  individual.  Suponga 
que  para  1971  la  cifra  del  IPDP  es  $2  610  y  deseamos  pronosticar  el  GCPP  correspondiente  a 
esta  cifra.  Entonces,  la  proyeccion  media  y  la  individual  del  GCPP  para  1971  es  la  misma  y  esta 
dada  por 


(PPCE1971|IPDP1971,X3  =  16)  =  Xj97iP 


=  [1  2  610  16] 


300.28625 

0.74198 

8.04356 


=  2  365.55 


(C.10.16) 


donde  empleamos  la  ecuacion  (C.9. 3). 

Como  sabemos  por  la  seccion  C.9,  las  varianzas  de  yj971  y  y1971  son  diferentes  y  son  las  si- 
guientes: 


var(fi97i 


x197l)  —  P  [x197l(^^)  x197l] 

=  164.73797[1  2  610  lOKX'X)'1 


1 

2  610 
16 


(C.10.17) 


donde  (X'X)  1  es  como  se  muestra  en  (C.  10.5).  A1  sustituir  esto  en  (C.10.17),  el  lector  debe 
verificar  que 

var(y1971  |  x'1971)  =  48.6426  (C.10.18) 


9  Para  mayor  detalle,  vease  la  seccion  8.4. 


Apendice  C  Metodo  matricial para  el  modelo  de  regresion  lineal  867 


y  por  consiguiente, 

ee(7i971  |x'1971)  =  6.9744 
Dejamos  al  lector  verificar,  mediante  (C.9.6),  que 

var(P1971  |  x'1971)  =  213.3806  (C.10.19) 


y 


ee(7i97i  |x'i97i)  =  14.6076 

Nota:  var(yi97i  |  x'1971)  =  E[YX91i  -  Ymx  |  x'1971]2. 

En  la  seccion  C.5  presentamos  la  matriz  de  correlacion  R.  Para  los  datos,  la  matriz  de  corre¬ 
lacion  es  la  siguiente: 


Y 

X2 

^3 

Y 

'1 

0.9980 

0.9743 

R=  X2 

0.9980 

1 

0.9664 

x3 

0.9743 

0.9664 

1 

(C. 10.20) 


Observe  que  en  (C.  10.20)  colocamos  al  margen  de  la  matriz  de  correlacion  las  variables  del 
modelo,  de  forma  que  se  identifiquen  facilmente  las  variables  incluidas  en  el  calculo  del  coefi- 
ciente  de  correlacion.  Asi,  el  coeficiente  0.9980  en  el  primer  renglon  de  la  matriz  (C.  10.20)  es 
el  coeficiente  de  correlacion  entre  Y  y  X2  (es  decir,  r\i).  A  partir  de  las  correlaciones  de  orden 
cero  de  la  matriz  de  correlacion  (C.  10.20)  se  derivan  con  facilidad  los  coeficientes  de  correlacion 
de  primer  orden  (vease  el  ejercicio  C.7). 


C.ll  Mmimos  cuadrados  generalizados  (MCG) 


En  diversas  ocasiones  mencionamos  que  los  MCO  son  un  caso  especial  de  los  MCG.  Para 
apreciar  esto,  regresemos  a  la  ecuacion  (C.2.2).  Con  el  objeto  de  tomar  en  cuenta  las  varianzas 
heteroscedasticas  [los  elementos  de  la  diagonal  principal  de  (C.2.2)]  y  las  autocorrelaciones  en 
los  terminos  de  error  [los  elementos  que  no  estan  en  la  diagonal  principal  de  (C.2.2)],  supone- 
mos  que 

E(uu')  =  cr2V  (C.11.1) 

donde  V  es  una  matriz  de  n  x  n  conocida. 

En  consecuencia,  si  el  modelo  es: 

y  =  Xp  +  u 

donde  7i(u)  =  0  y  var-cov(u)  =  <r2V.  En  caso  de  que  no  se  conozca  a2,  lo  cual  suele  suceder, 
V  representa  la  estructura  supuesta  de  las  varianzas  y  de  las  covarianzas  entre  los  errores  alea- 
torios  ut. 

Conforme  a  la  condicion  impuesta  de  la  varianza-covarianza  de  los  terminos  de  error,  se  de- 
muestra  que: 

pmcg  =  (c.i  i  .2) 

fimc"  se  conoce  como  estimador  de  mmimos  cuadrados  generalizados  (MCG)  de  (1. 

Tambien  se  demuestra  que 

var-cov(pmcg)  =  ct2(X,V-1X)-1  (C.1 1.3) 

Se  puede  probar  que  pmcg  es  el  mejor  estimador  lineal  insesgado  de  p. 
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Si  se  supone  que  la  varianza  de  cada  termino  de  error  es  la  misma  constante  a2  y  que  los  ter- 
minos  de  error  estan  mutuamente  no  correlacionados,  la  matriz  V  se  reduce  a  la  matriz  identidad, 
como  se  ve  en  (C.2.3).  Si  los  terminos  de  error  no  estan  mutuamente  correlacionados  pero  tienen 
varianzas  distintas  (es  decir,  heteroscedasticas),  la  matriz  V  sera  diagonal,  con  varianzas  diferen- 
tes  a  lo  largo  de  la  diagonal  principal.  Desde  luego,  si  hay  heteroscedasticidad  y  autocorrelacion, 
la  matriz  V  tendra  entradas  en  la  diagonal  principal  y  fuera  de  ella. 

El  verdadero  problema  en  la  practica  consiste  en  que  desconocemos  a2,  asi  como  las  varianzas 
y  covarianzas  verdaderas  (es  decir,  la  estructura  de  la  matriz  V).  Como  una  solucion,  recurrimos 
al  metodo  de  mmimos  cuadrados  generalizados  estimados,  o  factibles  (MCGE).  En  dicho 
metodo  calculamos  primero  el  modelo  mediante  MCO  y  pasamos  por  alto  los  problemas  de  la 
heteroscedasticidad  y/o  la  autocorrelacion.  Obtenemos  los  residuos  a  partir  de  este  modelo  y 
de  la  matriz  de  varianza-covarianza  (estimada)  del  termino  de  error  mediante  la  sustitucion  de 
las  entradas  de  la  expresion  que  esta  justamente  antes  de  (C.2.2)  por  los  u  estimados,  a  saber:  u. 
Se  puede  demostrar  que  los  estimadores  de  MCGE  son  estimadores  consistentes  de  los  MCG. 
Simbolicamente, 


pmcge  =  (X'V-1X)-I(X'V-1y)  (C.11.4) 

var-cov  (P‘ncge)  =  ct2(X,V-1X)-1  (C.11.5) 

donde  V  es  una  estimation  de  V. 


C.12  Resumen  y  conclusiones 


El  proposito  principal  de  este  apendice  fue  introducir  el  enfoque  matricial  al  modelo  clasico  de 
regresion  lineal.  Aunque  presentamos  muy  pocos  conceptos  nuevos  del  analisis  de  regresion,  la 
notation  matricial  proporciona  un  metodo  compacto  para  abordar  los  modelos  de  regresion  lineal 
con  cualquier  numero  de  variables. 

Al  concluir  este  apendice  observe  que  si  las  variables  X  y  Y  se  miden  en  forma  de  desviacio- 
nes,  es  decir,  como  desviaciones  de  sus  medias  muestrales,  hay  pocos  cambios  en  las  formulas 
presentadas  antes.  Estos  cambios  se  enumeran  en  la  tabla  C.6.10  Como  muestra  dicha  tabla,  en 


TABLA  C.6 

Unidades  originales 

Formas  de  desviacion 

Modelo  de  regresion  con 

k  variables  en  unidades 

y  =  Xp  +  u 

(C.3.2) 

y  =  Xp  +  u 

originales  y  en  forma  de 

La  columna  de  1  en  la  matriz  X 

desviacion* 

se  elimina  (^Por  que?) 

p  =  (X'X)1X,y 

(C.3.11) 

Igual 

var-cov  (P)  =  cr2(X'X)_1 

(C.3.13) 

Igual 

u'u  =  y'y  —  p'X'y 

(C.3.1 8) 

Igual 

E/;2  =y'y  -  nY2 

(C.3.16) 

E  y,2  = 

y'y 

(C.12.1) 

SCE=  p'X'y  -  n?2 

(C.3.1  7) 

SCE  = 

p'X'y 

(C.12. 2) 

..  P'X'y  —  nY2 

P'X'y 

R2  =  ,  y2 

(C.4.2) 

r2  = 

(C.12.3) 

y  y-nr 

y  y 

*  Observe  que,  a  pesar  de  que  en  ambos  casos  los  simbolos  para  las  matrices  y  los  vectores  son  iguales,  en  la  forma  de  desviacion  se 
supone  que  los  elementos  de  las  matrices  y  de  los  vectores  son  desviaciones  y  no  datos  simples.  Observe  ademas  que  en  la  forma  de 
desviacion  $  es  de  orden  k  —  1  y  la  var-cov(p)  es  de  orden  ( k  —  1)(&  —  1). 


10  En  estos  dfas  de  computadoras  de  alta  velocidad  quiza  no  sea  necesaria  la  forma  de  desviacion;  pero  sim- 
plifica  las  formulas  y,  por  consiguiente,  los  calculos  si  trabaja  con  calculadora  de  escritorio  y  maneja  cifras 
grandes. 
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la  forma  de  desviaciones,  se  elimina  de  la  SCT  y  de  la  SCE  la  correccion  para  la  media  nY2. 
(^Por  que?)  Esta  perdida  genera  un  cambio  en  la  formula  para  R2.  Por  lo  demas,  la  mayoria  de 


las  formulas  desarrolladas  en  las  unidades  originales  de  medicion  se  mantiene  para  la  forma 
de  desviacion. 


EJERCICIOS  C.l.  Para  el  ejemplo  ilustrativo  analizado  en  la  seccion  C.10,  la  X'X  y  la  X'y,  con  la  informa- 

cion  en  forma  de  desviacion,  son  las  siguientes: 


1  103  111.333 


16  984 
280 


955  099.333 
14  854.000 


a )  Estime  /f>  y  Pi- 

b)  ^Como  estimaria  Pf! 

c)  Estime  la  varianza  de  /32  y  Pi  y  sus  covarianzas. 


d)  Obtenga  R2  y  R2. 

e)  A1  comparar  los  resultados  con  los  de  la  seccion  C.10,  (',quc  ventajas  encuentra  en  la 
forma  de  desviacion? 

C.2.  Consulte  el  ejercicio  22.23.  Con  los  datos  proporcionados  en  dicho  ejercicio,  defina  la  ma- 
triz  (X'X)  y  el  vector  X'y;  asimismo,  calcule  el  vector  parametro  P  y  su  matriz  de  varianza- 
covarianza.  Tambien  obtenga  R2.  (',C6mo  demostraria  la  hipotesis  de  que  las  elasticidades 
de  Ml  respecto  del  PIB  y  la  tasa  de  interes  R  son  numericamente  iguales? 

C.3.  Prueba  sobre  la  igualdad  de  dos  coeficientes  de  regresion.  Suponga  que  tenemos  el  si- 
guiente  modelo  de  regresion: 


Yi  —  +  P2X21  +  P3X3  i  + 


y  desea  probar  la  hipotesis  de  que  /S2  =  Pi-  Si  supone  que  los  m,  estan  normalmente  distri- 
buidos,  se  demuestra  que 


$2  ~  Pi 


t  — 


sigue  la  distribucion  t  con  n  —  3  gl  (vease  la  seccion  8.5).  (En  general,  para  el  caso  de  k 
variables,  los  gl  son  n  —  k.)  Por  consiguiente,  con  la  prueba  t  anterior  se  prueba  la  hipotesis 
nula  p2  —  Pi- 

Con  la  prueba  t  anterior,  verifique  la  hipotesis  de  que  los  verdaderos  valores  de  P2  y  Pi 
en  la  regresion  (C.10. 14)  son  identicos. 

Sugerencia:  utilice  la  matriz  var-cov  de  P  dada  en  (C.l 0.9). 

C.4.  Forma  de  expresar  correlaciones  de  orden  superior  en  terminos  de  correlaciones  de  orden 
inferior.  Los  coeficientes  de  correlacion  de  orden  p  se  expresan  en  terminos  de  los  coefi¬ 
cientes  de  correlacion  de  orden p  —  1  mediante  la  siguiente  formula  de  reduccion: 


^*12.3  4  5. ..(/>—!)  —  Vxp3A5...(p~\)r2p.iA5...(p-\)\ 
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'iz.j—  , -  / - 

7 1  -  rhy/ 1  -  rh 

igual  a  la  obtenida  en  el  capltulo  7. 

Con  la  siguiente  matriz  de  correlacion: 


Y 

a2 

^3 

A4  As 

Y 

'  1 

0.44 

-0.34 

-0.31  -0.14 

x2 

1 

0.25 

-0.19  -0.35 

R=  A3 

1 

0.44  0.33 

a4 

1  0.85 

A5 

1 

Encuentre  lo  siguiente: 

a)  H  2.345 

b) 

n  2.34 

c)  n  2.3 

d)  ^  1  3.245 

e)  ri3.24 

/)  ^1  3.2 

C.5.  Forma  de  expresar  coeficientes  de  regresion  de  orden  superior  en  terminos  de  coeficien- 
tes  de  regresion  de  orden  inferior.  Un  coeficiente  de  regresion  de  orden  p  se  expresa  en 
terminos  de  un  coeficiente  de  regresion  de  orden  p  —  1  mediante  la  siguiente  formula  de 
reduccion: 


fix  2.345.../)  — 


_  fii2345...(p-X)  ~  [filp345...(p-l)fip23A5...(p-l)\ 


1  —  fi2p3A5...(p-X)fip2345...(p-X) 


Asi, 


fix  23 


fix  2  —  fixifii2 

1  ~  ^23^32 


donde  /Si  2.3  es  el  coeficiente  de  la  pendiente  en  la  regresion  de  j-  sobrc  A2  si  A3  se  mantiene 
constante.  En  forma  similar,  fi\  2.34  es  el  coeficiente  de  la  pendiente  en  la  regresion  de  Y 
sobre  A2  si  se  mantienen  constantes  A3  y  A4,  y  asi  sucesivamente. 

Con  la  formula  anterior,  encuentre  expresiones  para  los  siguientes  coeficientes  de 
regresion  en  terminos  de  coeficientes  de  regresion  de  orden  menor:  fi\23456,  fix  2.345  y 
fix  234- 

C.6.  Establezca  la  siguiente  identidad: 

fix23fi22.xfiiX.2  —  ^1 2.3^23.1^3  1.2 


C.7.  Para  la  matriz  de  correlacion  R  de  (C.  10.20),  encuentre  todos  los  coeficientes  de  correla¬ 
cion  parcial  de  primer  orden. 

C.8.  A1  estudiar  la  variacion  en  las  tasas  de  criminalidad  en  algunas  ciudades  grandes  de  Esta- 
dos  Unidos,  Ogburn  obtuvo  la  siguiente  information:* 


Y 

a2 

a3 

a4 

As 

Y 

=  19.9 

Si  = 

7.9 

Y 

'  1 

0.44 

-0.34 

-0.31 

-0.14 

a2 

=  49.2 

s2  = 

1.3 

a2 

1 

0.25 

-0.19 

-0.35 

^3 

=  10.2 

*^3  — 

4.6 

R=  A3 

1 

0.44 

0.33 

a4 

=  481.4 

54  = 

74.4 

a4 

1 

0.85 

As 

=  41.6 

5s  = 

10.8 

As 

1 

*  W.F.  Ogburn,  "Factors  in  the  Variation  of  Crime  among  Cities",  / ournal  of  American  Statistical  Association, 
vol.  30,  1935,  p.  12. 
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donde  Y  —  tasa  de  criminalidad,  numero  de  delitos  conocidos  por  cada  mil  personas 
X2  —  porcentaje  de  habitantes  masculinos 

Xt,  —  porcentaje  del  total  de  habitantes  masculinos  nacidos  en  el  exterior 
X4  —  numero  de  ninos  menores  de  5  arios  por  cada  mil  mujeres  casadas  entre  los  15 
y  los  44  anos  de  edad 

X5  —  pertenencia  a  alguna  iglesia,  numero  de  miembros  de  la  iglesia  de  13  anos 
de  edad  o  mayores  por  cada  100  personas  de  la  poblacion  total  de  13  anos  de 
edad  y  superior;  de  S\  a  S5  son  las  desviaciones  estandar  muestrales  de  las 
variables  Y  hasta  X5,  y  R  es  la  matriz  de  correlacion. 

a)  Trate  Y  como  variable  dependiente,  obtenga  la  regresion  de  Y  sobre  las  cuatro  variables 
X  e  interprete  la  regresion  estimada. 

b)  Obtenga  n  2.3,  n  4.3  5  y  n  5.3  4- 

c)  Obtenga  R 2  y  pruebe  la  hipotesis  de  que  todos  los  coeficientes  de  pendiente  parciales 
son  simultaneamente  iguales  a  cero. 

C.9.  En  la  siguiente  tabla  se  proporcionan  datos  sobre  la  produccion  y  costo  total  de  produccion 
de  un  bien  en  el  corto  plazo  (vease  el  ejemplo  7.4). 


Produccion  Costo  total,  $ 


193 

226 

240 

244 

257 

260 

274 

297 

350 

420 


2 

3 

4 

5 

6 

7 

8 
9 

10 


Para  probar  si  los  datos  anteriores  sugieren  las  curvas  de  costo  promedio  y  de  costo 
marginal  en  forma  de  U  que  por  lo  general  se  encuentra  en  el  corto  plazo,  se  puede  utilizar 
el  siguiente  modelo: 


Y,  =  fix  +  foXi  +  P1X2  +  fa*]  +  * 


donde  Y  —  costo  total  y  X  —  produccion.  Las  variables  explicativas  adicionales  Xj  y  X- 

son  derivadas  de  X. 

a)  Exprese  los  datos  en  la  forma  de  desviacion  y  obtenga  (X'X),(X'y)  y  (X'X)  . 

b)  Estime  yS2,  £3  y  Pa- 

c)  Estime  la  matriz  var-cov  de  (3. 

d)  Estime  fl\.  Interprete  P\  en  el  contexto  del  problema. 

e)  Obtenga  R2  y  R2. 

f)  A  priori,  ^cuales  son  los  signos  de  fo,  Pi  y  ^4?  ^Por  que? 

g)  De  la  funcion  de  costo  total  anterior,  obtenga  expresiones  para  las  funciones  de  costo 
marginal  y  promedio. 

h)  Ajuste  las  funciones  de  costo  promedio  y  marginal  a  los  datos  y  comente  sobre  el 
ajuste. 

i  )  Si  Pi  =  Pa  =  0,  /,cual  es  la  naturaleza  de  la  funcion  de  costo  marginal?  <^C6mo  probaria 
la  hipotesis  de  que  Pi  —  P4  —  0? 

j)  (',C6mo  derivaria  las  funciones  de  costo  variable  total  y  de  costo  variable  promedio  a 
partir  de  la  informacion  dada? 
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TABLA  C.7 

Experiencia  de  la  parti- 
cipacion  de  la  poblacion 
urbana  de  bajos  recur- 
sos  en  la  fuerza  laboral: 
area  del  censo,  ciudad  de 
Nueva  York,  1970 

Fuente:  Areas  del  censo:  Nueva 
York,  Bureau  of  the  Census,  U.S. 
Department  of  Commerce,  1970. 


Num. 

%  en  la  fuerza 

Ingreso  familiar 

Tamano  familiar 

Tasa  de 

de  area 

laboral  Y* 

medio,  X-J 

medio,  X2 

desempleo,  X4* 

137 

64.3 

1  998 

2.95 

4.4 

139 

45.4 

1  114 

3.40 

3.4 

141 

26.6 

1  942 

3.72 

1.1 

142 

87.5 

1  998 

4.43 

3.1 

143 

71.3 

2  026 

3.82 

7.7 

145 

82.4 

1  853 

3.90 

5.0 

147 

26.3 

1  666 

3.32 

6.2 

149 

61.6 

1  434 

3.80 

5.4 

151 

52.9 

1  513 

3.49 

12.2 

153 

64.7 

2  008 

3.85 

4.8 

155 

64.9 

1  704 

4.69 

2.9 

157 

70.5 

1  525 

3.89 

4.8 

159 

87.2 

1  842 

3.53 

3.9 

161 

81.2 

1  735 

4.96 

7.2 

163 

67.9 

1  639 

3.68 

3.6 

*Y= jefes  de  familia  menores  de  65  anos. 
tXi  =  dolares. 

*X4  =  porcentaje  de  la  fuerza  laboral  civil  desempleada. 


C.  10.  Con  el  fin  de  estudiar  la  participacion  de  las  familias  urbanas  de  bajos  recursos  (con  ingre- 
sos  menores  a  $3  943  en  1969)  en  la  fuerza  laboral,  se  obtuvieron  los  siguientes  datos  del 
Censo  de  Poblacion  de  1970. 

a)  Con  el  modelo  de  regresion  Y,  —  +  (i2X2i  +  /32X2i  +  @4X41  +  u,  obtenga  las  esti- 

maciones  de  los  coeficientes  de  regresion  e  interprete  sus  resultados. 

b)  A  priori,  (',cualcs  son  los  signos  esperados  de  los  coeficientes  de  regresion  en  el  modelo 
anterior  y  por  que? 

c)  (',C6mo  probaria  la  hipotesis  de  que  la  tasa  global  de  desempleo  no  afecta  la  participa¬ 
cion  en  la  fuerza  laboral  de  la  poblacion  urbana  de  bajos  recursos  en  el  area  del  censo 
de  la  tabla  anterior? 

d)  ;,Dcbe  eliminarse  alguna  variable  del  modelo  anterior?  <^Por  que? 

e)  ^Que  otras  variables  deben  incluirse  en  el  modelo? 

C.  1 1 .  En  una  aplicacion  de  la  funcion  de  produccion  Cobb-Douglas  se  obtuvieron  los  siguientes 
resultados: 


InT,  =  2.3542  +  0.9576  lnX2i  +  0.8242  In  X3l 
(0.3022)  (0.3571) 

R2  =  0.8432  gl=12 

donde  Y  —  produccion,  X2  —  insumo  trabajo  y  X2  —  insumo  capital,  y  donde  las  cifras  en 
parentesis  son  los  errores  estandar  estimados. 

a)  Como  mencionamos  en  el  capitulo  7,  los  coeficientes  de  los  insumos  trabajo  y  capital 
en  la  ecuacion  anterior  dan  las  elasticidades  de  la  produccion  respecto  del  trabajo  y  el 
capital.  Pruebe  la  hipotesis  de  que  estas  elasticidades  son  individualmente  iguales  a  la 
unidad. 

b)  Pruebe  la  hipotesis  de  que  las  elasticidades  trabajo  y  capital  son  iguales,  suponiendo 

i )  que  la  covarianza  entre  los  coeficientes  estimados  del  trabajo  y  del  capital  es  cero  y 

ii)  que  es  —0.0972. 

c)  ;  Como  probaria  la  significance  global  de  la  ecuacion  de  regresion  anterior? 
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*C.12.  Exprese  la  funcion  de  verosimilitud  para  el  modelo  de  regresion  con  k  variables  en  no¬ 
tation  matricial  y  muestre  que  P,  el  vector  de  estimadores  de  maxima  verosimilitud,  es 
identico  a  P  el  vector  de  estimadores  de  MCO  del  modelo  de  regresion  con  k  variables. 

C.13.  Regresion  mediante  variables  estandarizadas.  Considere  las  siguientes  funciones  de  re¬ 
gresion  muestral  (FRM): 


(1) 

(2) 


Yj  —  +  PiXii  +  $3X31  +  Ui 

Y*  =  bi  +  b2X*.  +  b3X*3i  +  u* 


donde 


X2i  -  X2 


donde  las  letras  5  denotan  las  desviaciones  estandar  muestrales.  Como  vimos  en  el  capi- 
tulo  6,  section  6.3,  las  variables  con  asterisco  se  conocen  como  variables  estandarizadas. 
Tienen  medias  cero  y  desviaciones  estandar  unitarias  (=  1).  Exprese  todas  las  variables  en 
forma  de  desviaciones  y  demuestre  lo  siguiente  para  el  modelo  (2): 


a)  XX  = 


n 


1 


1  -r23 


c)  XX  1  =  — 

«( 1 


1  ri2-r23ri3 

1  -  r\ 3  [r13  -  ^23^12 


r  12  -  7*23^1  3 


e)  b\  —  0 


Establezca  tambien  la  relation  entre  las  b  y  las  $. 


(Observe  que  en  las  relaciones  anteriores,  n  denota  el  tamano  de  la  muestra;  r\  2,  r\  3 
y  r2  3  denotan  las  correlaciones  entre  Y  y  X2,  entre  Y  y  X]  y  entre  X2  y  X3,  respectiva- 
mente.) 

C.14.  Verifique  las  ecuaciones  (C.10.18)  y  (C.10.19). 

*C.15.  Minimos  cuadrados  restringidos.  Suponga  que 


(1) 


y  =  Xp  +  u 


la  cual  deseamos  estimar  sujeta  a  un  conjunto  de  limitaciones  o  restricciones  de  igual- 


dad: 


RP  =  r 


(2) 


donde  R  es  una  matriz  conocida  de  orden  qxk  (q  <  k)  y  r  es  un  vector  conocido  de  q  ele- 
mentos.  Para  ilustrar,  suponga  que  nuestro  modelo  es 


Yi  —  P\  +  fh.X2  i  +  p3X3  i  +  P4X41  +  fisXsj  +  u 


(3) 


Opcional. 


874  Apendice  C  Metodo  matricial para  el  modelo  de  regresion  lineal 


y  suponga  que  deseamos  estimar  este  modelo  sujeto  a  estas  restricciones: 


Pi  -  ft  =  0  (4) 

Pa  +  Ps  —  1 

Con  algunas  de  las  tecnicas  estudiadas  en  el  capltulo  8  podemos  incorporar  estas  restric¬ 
ciones  (por  ejemplo,  p2  =  Pi  y  Pa  —  1  —  Ps,  y  eliminar  asi  P2  y  Pa  del  modelo)  y  probar 
la  validez  de  estas  restricciones  mediante  la  prueba  F  alii  tratada.  Pero  una  forma  mas 
directa  de  estimar  (3)  incorporando  las  restricciones  (4)  directamente  en  el  procedimiento 
de  estimation  es  expresar  primero  las  restricciones  en  la  forma  de  la  ecuacion  (2),  que  en 
el  presente  caso  se  convierte  en 


0  1 

-1  0  o' 

'o' 

0  0 

0  1  1 

r  = 

1 

A1  permitir  que  P  denote  el  estimador  de  minimos  cuadrados  restringidos,  se  demuestra 

que  P*  se  estima  mediante  la  siguiente  formula:* 

P*  =  (3  +  ( X'X) ~ 1 R' [R(X'X) ~ 1 R'] _  1  ( r  -  R)  (6) 

donde  P  es  el  estimador  usual  (no  restringido)  calculado  mediante  la  formula  usual 

(X'X)-'X'y. 

a)  ^Cual  es  el  vector  en  (3)? 

b)  Con  este  vector  verifique  que  la  matriz  R  y  el  vector  r  dados  en  (5)  incorporan  en 
realidad  las  restricciones  especificadas  en  (4). 

c)  Escriba  la  matriz  R  y  el  vector  r  en  los  siguientes  casos: 

0  Pi  —  Pi  —  Pa  —  2 

ii)  Pi  =  P2  y  Pa  =  Ps 

Hi)  Pi  -  3  Ps  —  5  Pa 

iv)  p2  +  3Ps  —  0 

d )  (',Cuando  sera  P  =  p? 


Apendice  CA 


CA.l 


Derivacion  de  k  ecuaciones  normales  o  simultaneas 


A1  diferenciar 


- te)2 


parcialmente  respecto  de  $1,  $2, ,  At,  obtenemos 


ajyi 

dpi 

9E»2 

dpi 


2  ~  Pi  ~  PiXn - PkXk,)(- 1) 

2^(7,  -  Pi-  p2X 2i - PkXki)(-X2i) 


dEuj 

dpk 


=  2  Y.iY,  -  Pi  -  PiXki - PkXki)(-Xki) 


Igualamos  a  cero  las  derivadas  parciales  anteriores,  reordenamos  los  terminos  y  obtenemos  las  k  ecuaciones 
normales  dadas  en  (C.3.8). 


Vease  J.  Johnston,  op.  cit.,  p.  205. 
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CA.2 


Derivacion  matricial  de  las  ecuaciones  normales 


A  partir  de  (C.3.7)  obtenemos 

u  u  =  y'y  -  2P'X'y  +  P'X'XP 

Con  las  reglas  de  diferenciacion  matricial  del  apendice  B,  seccion  B.6,  obtenemos 

')(U.ll)  =  —  2X'y  +  2X'Xf3 

ap 

Igualamos  a  cero  la  ecuacion  anterior  y  obtenemos 

(X'X)P  =  X'y 

de  donde  P  =  (X'X)~’X'y  siempre  que  exista  la  inversa. 


CA.3  Matriz  de  varianza-covarianza  de  3 


De  (C.3. 1 1)  obtenemos 

p  =  (X'X)-'x'y 


Sustituimos  y  =  Xfl  +  u  en  la  expresion  anterior  y  obtenemos 

P  =  (X'Xr'x'CXP  +  u) 

=  (X'X)‘1X'XP  +  (X'X)“1X'u  (1) 

=  P  +  (X'X)_1X'u 


Por  consiguiente, 

P  -  P  =  (X'X)_1X'u 


(2) 


Por  definicion, 

var-cov(P)  =  £"[(P  -  P)(P  -  P)'] 

=  ^{[(X'Xl^’x'ulKX'X)"1^^')  (3) 

=  E  [( X'X) _  1  X'uu'X(  X'X)  ~ 1  ] 

donde  en  el  ultimo  paso  aprovechamos  que  (AB)'=  B'A'. 

Como  las  A  son  no  estocasticas,  al  tomar  el  valor  esperado  de  (3)  obtenemos: 

var-cov(P)  =  (X'X)"1X,£(uu')X(X'X)“1 

=  (X'X)^1XV2IX(X'X)~1 

=  ff2(X'X)“1 

que  es  el  resultado  de  (C.3.13).  Observe  que  al  derivar  el  resultado  anterior  empleamos  el  supuesto  de  que 
E(uu')  =  a2 1. 


CA.4  Propiedad  MELI  de  los  estimadores  de  MCO 


De  (C.3. 1 1)  tenemos  que 

P  =  (X'X)  “‘x'y  (1) 

Como  (X'X)~*X'  es  una  matriz  de  numeros  fijos,  P  es  una  funcion  lineal  de  Y.  Por  tanto,  por  definicion,  es 
un  estimador  lineal. 
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Recuerde  que  la  FRP  es 

y=XP+u 

(2) 

Sustituimos  esto  en  (1)  y  obtenemos 

P  =  (X'X)_1X'(XP  +  u) 

(3) 

=  P  +  (X'X)_IX'u 

(4) 

porque(X'X)-1X'X  =  I. 

Tomamos  el  valor  esperado  de  (4)  y  da 

£(P)  =  £(P)  +  (X'X)_1X'£’(u) 

=  P 

(5) 

porque  E(  P )  =  p  (^por  que?)  y  E(u)  =  0  segun  los  supuestos,  lo  cual  indica  que  P 
de  p. 

Sea  P*  cualquier  otro  estimador  lineal  de  p,  el  cual  se  escribe  como 

es  un  estimador  insesgado 

P*  =  [(X'Xr'x'  +  C]y 

(6) 

donde  C  es  una  matriz  de  constantes. 

A1  sustituir  y  de  (2)  en  (6),  obtenemos 

P*  =  [(x'xr'x'  +  C](XP  +  u) 

=  P  +  CXP  +  (X'X)_1X'u  +  Cu 
Ahora,  si  P*  es  un  estimador  insesgado  de  p,  debemos  tener 


CX  =  0  (i  Por  que?) 

Con  (8),  (7)  se  escribe  asi: 

P*  —  P  =  (X'X)_1X'u  +  Cu 
Por  definition,  la  matriz  de  var-cov(P*)  es 

£XP*  -  P)(P*  -  P)'  =  £’[(X'X)~1X'u  +  Cu] [(X'X)_1X'u  +  Cu]' 


(7) 

(8) 

(9) 

(10) 


Empleamos  las  propiedades  de  inversion  y  trasposicion  de  matrices  y  despues  de  simplification  algebraica 
para  obtener 

var-cov  (P*)  =  ct2(X'X)_1  +  a2CC' 

=  var-cov(P)  +  cr2CC'  (11) 

lo  cual  indica  que  la  matriz  de  varianza-covarianza  del  estimador  lineal  e  insesgado  alterno  P*  es  igual  a  la 
matriz  de  varianza-covarianza  del  estimador  MCO,  P  mas  a 1  veces  CC',  que  es  una  matriz  semidefinida* 
positiva.  Por  tanto,  las  varianzas  de  un  elemento  dado  de  P*  deben  ser  necesariamente  iguales  o  mayores  al 
elemento  correspondiente  de  P,  lo  cual  demuestra  que  P  es  MELI.  Por  supuesto,  si  C  es  una  matriz  nula,  es 
decir,  C  =  0,  entonces  P*  =  P,  lo  que  equivale  a  decir  que  si  encontramos  un  estimador  MELI,  este  debe  ser 
el  estimador  de  minimos  cuadrados  p. 


Consulte  las  referencias  del  apendice  B. 


Apendice 


Tablas  estadisticas 


Tabla  D.l 
Tabla  D.2 
Tabla  D.3 
Tabla  D.4 
Tabla  D.5A 

Tabla  D.5B 

Tabla  D.6 
Tabla  D.7 


Areas  debajo  de  la  distribucion  normal  estandarizada 
Puntos  porcentuales  de  la  distribucion  t 
Puntos  porcentuales  superiores  de  la  distribucion  F 
Puntos  porcentuales  superiores  de  la  distribucion  x2 

Estadlstico  d  de  Durbin- Watson:  Puntos  de  significancia  de  y  da  en  el  nivel  de 
significance  de  0.05 

Estadistico  d  de  Durbin- Watson:  Puntos  de  significancia  de  y  da  en  el  nivel  de 
significancia  de  0.01 

Valores  criticos  de  las  rachas  en  la  prueba  de  rachas 

Valores  criticos  Dickey-Fuller  t  (=  r)  a  1%  y  5%,  asi  como  valores  F  para  prue- 
bas  de  raiz  unitaria 
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TAB  LA  D.1 

Areas  debajo  de  la 
distribution  normal 
estandarizada 


Ejemplo 

Pr(0<Z<  1.96)  =  0.4750 

Pr(Z  >  1 .96)  =  0.5  -  0.4750  =  0.025 


z 

.00 

.01 

.02 

.03 

.04 

.05 

.06 

.07 

.08 

.09 

0.0 

.0000 

.0040 

.0080 

.0120 

.0160 

.0199 

.0239 

.0279 

.0319 

.0359 

0.1 

.0398 

.0438 

.0478 

.0517 

.0557 

.0596 

.0636 

.0675 

.0714 

.0753 

0.2 

.0793 

.0832 

.0871 

.0910 

.0948 

.0987 

.1026 

.1064 

.1103 

.1141 

0.3 

.1179 

.1217 

.1255 

.1293 

.1331 

.1368 

.1406 

.1443 

.1480 

.1517 

0.4 

.1554 

.1591 

.1628 

.1664 

.1700 

.1736 

.1772 

.1808 

.1844 

.1879 

0.5 

.1915 

.1950 

.1985 

.2019 

.2054 

.2088 

.2123 

.2157 

.2190 

.2224 

0.6 

.2257 

.2291 

.2324 

.2357 

.2389 

.2422 

.2454 

.2486 

.2517 

.2549 

0.7 

.2580 

.2611 

.2642 

.2673 

.2704 

.2734 

.2764 

.2794 

.2823 

.2852 

0.8 

.2881 

.2910 

.2939 

.2967 

.2995 

.3023 

.3051 

.3078 

.3106 

.3133 

0.9 

.3159 

.3186 

.3212 

.3238 

.3264 

.3289 

.3315 

.3340 

.3365 

.3389 

1.0 

.3413 

.3438 

.3461 

.3485 

.3508 

.3531 

.3554 

.3577 

.3599 

.3621 

1.1 

.3643 

.3665 

.3686 

.3708 

.3729 

.3749 

.3770 

.3790 

.3810 

.3830 

1.2 

.3849 

.3869 

.3888 

.3907 

.3925 

.3944 

.3962 

.3980 

.3997 

.4015 

1.3 

.4032 

.4049 

.4066 

.4082 

.4099 

.4115 

.4131 

.4147 

.4162 

.4177 

1.4 

.4192 

.4207 

.4222 

.4236 

.4251 

.4265 

.4279 

.4292 

.4306 

.4319 

1.5 

.4332 

.4345 

.4357 

.4370 

.4382 

.4394 

.4406 

.4418 

.4429 

.4441 

1.6 

.4452 

.4463 

.4474 

.4484 

.4495 

.4505 

.4515 

.4525 

.4535 

.4545 

1.7 

.4454 

.4564 

.4573 

.4582 

.4591 

.4599 

.4608 

.4616 

.4625 

.4633 

1.8 

.4641 

.4649 

.4656 

.4664 

.4671 

.4678 

.4686 

.4693 

.4699 

.4706 

1.9 

.4713 

.4719 

.4726 

.4732 

.4738 

.4744 

.4750 

.4756 

.4761 

.4767 

2.0 

.4772 

.4778 

.4783 

.4788 

.4793 

.4798 

.4803 

.4808 

.4812 

.4817 

2.1 

.4821 

.4826 

.4830 

.4834 

.4838 

.4842 

.4846 

.4850 

.4854 

.4857 

2.2 

.4861 

.4864 

.4868 

.4871 

.4875 

.4878 

.4881 

.4884 

.4887 

.4890 

2.3 

.4893 

.4896 

.4898 

.4901 

.4904 

.4906 

.4909 

.4911 

.4913 

.4916 

2.4 

.4918 

.4920 

.4922 

.4925 

.4927 

.4929 

.4931 

.4932 

.4934 

.4936 

2.5 

.4938 

.4940 

.4941 

.4943 

.4945 

.4946 

.4948 

.4949 

.4951 

.4952 

2.6 

.4953 

.4955 

.4956 

.4957 

.4959 

.4960 

.4961 

.4962 

.4963 

.4964 

2.7 

.4965 

.4966 

.4967 

.4968 

.4969 

.4970 

.4971 

.4972 

.4973 

.4974 

2.8 

.4974 

.4975 

.4976 

.4977 

.4977 

.4978 

.4979 

.4979 

.4980 

.4981 

2.9 

.4981 

.4982 

.4982 

.4983 

.4984 

.4984 

.4985 

.4985 

.4986 

.4986 

3.0 

.4987 

.4987 

.4987 

.4988 

.4988 

.4989 

.4989 

.4989 

.4990 

.4990 

Nota:  Esta  tabla  da  el  area  en  la  cola  del  lado  derecho  de  la  distribution  (es  decir,  Z  >  0).  Pero  como  la  distribucion  normal  es 
simetrica  alrededor  de  Z  =  0,  el  area  en  la  cola  del  lado  izquierdo  es  la  misma  que  el  area  en  la  cola  correspondiente  del  lado 
derecho.  Por  ejemplo,  P(-1.96  <  Z  <  0)  =  0.4750.  Por  consiguiente,  P(-1.96  <  Z  <  1.96)  =  2(0.4750)  =  0.95. 
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TABLA  D.2 

Puntos  porcentuales  de 
la  distribution  t 

Fuente:  De  E.  S.  Pearson  y  H.  O. 
Hartley  (eds.),  Biometrika  Tables 
for  Statisticians,  vol.  1,  3a.  ed., 
tabla  12,  Cambridge  University 
Press,  Nueva  York,  1966.  Se  re¬ 
produce  con  autorizacion  de  los 
editores  y  los  fideicomisarios  de 
Biometrika. 


Ejemplo 

Pr(f  >  2.086)  =  0.025 
Pr(f  >  1.725)  =  0.05 
Pr(|f|  >  1.725)  =  0.10 


Pr 

g! 

0.25 

0.50 

0.10 

0.20 

0.05 

0.10 

0.025 

0.05 

0.01 

0.02 

0.005 

0.010 

0.001 

0.002 

1 

1.000 

3.078 

6.314 

12.706 

31.821 

63.657 

318.31 

2 

0.816 

1.886 

2.920 

4.303 

6.965 

9.925 

22.327 

3 

0.765 

1.638 

2.353 

3.182 

4.541 

5.841 

10.214 

4 

0.741 

1.533 

2.132 

2.776 

3.747 

4.604 

7.173 

5 

0.727 

1.476 

2.015 

2.571 

3.365 

4.032 

5.893 

6 

0.718 

1.440 

1.943 

2.447 

3.143 

3.707 

5.208 

7 

0.711 

1.415 

1.895 

2.365 

2.998 

3.499 

4.785 

8 

0.706 

1.397 

1.860 

2.306 

2.896 

3.355 

4.501 

9 

0.703 

1.383 

1.833 

2.262 

2.821 

3.250 

4.297 

10 

0.700 

1.372 

1.812 

2.228 

2.764 

3.169 

4.144 

11 

0.697 

1.363 

1.796 

2.201 

2.718 

3.106 

4.025 

12 

0.695 

1.356 

1.782 

2.179 

2.681 

3.055 

3.930 

13 

0.694 

1.350 

1.771 

2.160 

2.650 

3.012 

3.852 

14 

0.692 

1.345 

1.761 

2.145 

2.624 

2.977 

3.787 

15 

0.691 

1.341 

1.753 

2.131 

2.602 

2.947 

3.733 

16 

0.690 

1.337 

1.746 

2.120 

2.583 

2.921 

3.686 

17 

0.689 

1.333 

1.740 

2.110 

2.567 

2.898 

3.646 

18 

0.688 

1.330 

1.734 

2.101 

2.552 

2.878 

3.610 

19 

0.688 

1.328 

1.729 

2.093 

2.539 

2.861 

3.579 

20 

0.687 

1.325 

1.725 

2.086 

2.528 

2.845 

3.552 

21 

0.686 

1.323 

1.721 

2.080 

2.518 

2.831 

3.527 

22 

0.686 

1.321 

1.717 

2.074 

2.508 

2.819 

3.505 

23 

0.685 

1.319 

1.714 

2.069 

2.500 

2.807 

3.485 

24 

0.685 

1.318 

1.711 

2.064 

2.492 

2.797 

3.467 

25 

0.684 

1.316 

1.708 

2.060 

2.485 

2.787 

3.450 

26 

0.684 

1.315 

1.706 

2.056 

2.479 

2.779 

3.435 

27 

0.684 

1.314 

1.703 

2.052 

2.473 

2.771 

3.421 

28 

0.683 

1.313 

1.701 

2.048 

2.467 

2.763 

3.408 

29 

0.683 

1.311 

1.699 

2.045 

2.462 

2.756 

3.396 

30 

0.683 

1.310 

1.697 

2.042 

2.457 

2.750 

3.385 

40 

0.681 

1.303 

1.684 

2.021 

2.423 

2.704 

3.307 

60 

0.679 

1.296 

1.671 

2.000 

2.390 

2.660 

3.232 

120 

0.677 

1.289 

1.658 

1.980 

2.358 

2.617 

3.160 

OO 

0.674 

1.282 

1.645 

1.960 

2.326 

2.576 

3.090 

Nota:  La  probabilidad  mas  baja  que  aparece  en  el  encabezado  de  cada  columna  es  el  area  en  una  cola;  la  probabilidad  mas  alta 
es  el  area  en  ambas  colas. 
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TAB  LA  D.3  Puntos  porcentuales  superiores  de  la  distribution  F 
Ejemplo 

Pr (F  >  1.59)  =  0.25 

Pr(F  >  2.42)  =  0.1 0  paraglN^IO 

Pr(F  >  3.14)  =  0.05  y  N2  =  9 

Pr (f  >  5.26)  =  0.01 


gl  para 
el  deno- 
minador 

n2 

gl  para  el  numerador  Ni 

Pr 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

.25 

5.83 

7.50 

8.20 

8.58 

8.82 

8.98 

9.10 

9.19 

9.26 

9.32 

9.36 

9.41 

1 

.10 

39.9 

49.5 

53.6 

55.8 

57.2 

58.2 

58.9 

59.4 

59.9 

60.2 

60.5 

60.7 

.05 

161 

200 

216 

225 

230 

234 

237 

239 

241 

242 

243 

244 

.25 

2.57 

3.00 

3.15 

3.23 

3.28 

3.31 

3.34 

3.35 

3.37 

3.38 

3.39 

3.39 

2 

.10 

8.53 

9.00 

9.16 

9.24 

9.29 

9.33 

9.35 

9.37 

9.38 

9.39 

9.40 

9.41 

.05 

18.5 

19.0 

19.2 

19.2 

19.3 

19.3 

19.4 

19.4 

19.4 

19.4 

19.4 

19.4 

.01 

98.5 

99.0 

99.2 

99.2 

99.3 

99.3 

99.4 

99.4 

99.4 

99.4 

99.4 

99.4 

.25 

2.02 

2.28 

2.36 

2.39 

2.41 

2.42 

2.43 

2.44 

2.44 

2.44 

2.45 

2.45 

3 

.10 

5.54 

5.46 

5.39 

5.34 

5.31 

5.28 

5.27 

5.25 

5.24 

5.23 

5.22 

5.22 

.05 

10.1 

9.55 

9.28 

9.12 

9.01 

8.94 

8.89 

8.85 

8.81 

8.79 

8.76 

8.74 

.01 

34.1 

30.8 

29.5 

28.7 

28.2 

27.9 

27.7 

27.5 

27.3 

27.2 

27.1 

27.1 

.25 

1.81 

2.00 

2.05 

2.06 

2.07 

2.08 

2.08 

2.08 

2.08 

2.08 

2.08 

2.08 

4 

.10 

4.54 

4.32 

4.19 

4.11 

4.05 

4.01 

3.98 

3.95 

3.94 

3.92 

3.91 

3.90 

.05 

7.71 

6.94 

6.59 

6.39 

6.26 

6.16 

6.09 

6.04 

6.00 

5.96 

5.94 

5.91 

.01 

21.2 

18.0 

16.7 

16.0 

15.5 

15.2 

15.0 

14.8 

14.7 

14.5 

14.4 

14.4 

.25 

1.69 

1.85 

1.88 

1.89 

1.89 

1.89 

1.89 

1.89 

1.89 

1.89 

1.89 

1.89 

5 

.10 

4.06 

3.78 

3.62 

3.52 

3.45 

3.40 

3.37 

3.34 

3.32 

3.30 

3.28 

3.27 

.05 

6.61 

5.79 

5.41 

5.19 

5.05 

4.95 

4.88 

4.82 

4.77 

4.74 

4.71 

4.68 

.01 

16.3 

13.3 

12.1 

11.4 

11.0 

10.7 

10.5 

10.3 

10.2 

10.1 

9.96 

9.89 

.25 

1.62 

1.76 

1.78 

1.79 

1.79 

1.78 

1.78 

1.78 

1.77 

1.77 

1.77 

1.77 

6 

.10 

3.78 

3.46 

3.29 

3.18 

3.11 

3.05 

3.01 

2.98 

2.96 

2.94 

2.92 

2.90 

.05 

5.99 

5.14 

4.76 

4.53 

4.39 

4.28 

4.21 

4.15 

4.10 

4.06 

4.03 

4.00 

.01 

13.7 

10.9 

9.78 

9.15 

8.75 

8.47 

8.26 

8.10 

7.98 

7.87 

7.79 

7.72 

.25 

1.57 

1.70 

1.72 

1.72 

1.71 

1.71 

1.70 

1.70 

1.69 

1.69 

1.69 

1.68 

7 

.10 

3.59 

3.26 

3.07 

2.96 

2.88 

2.83 

2.78 

2.75 

2.72 

2.70 

2.68 

2.67 

.05 

5.59 

4.74 

4.35 

4.12 

3.97 

3.87 

3.79 

3.73 

3.68 

3.64 

3.60 

3.57 

.01 

12.2 

9.55 

8.45 

7.85 

7.46 

7.19 

6.99 

6.84 

6.72 

6.62 

6.54 

6.47 

.25 

1.54 

1.66 

1.67 

1.66 

1.66 

1.65 

1.64 

1.64 

1.63 

1.63 

1.63 

1.62 

8 

.10 

3.46 

3.11 

2.92 

2.81 

2.73 

2.67 

2.62 

2.59 

2.56 

2.54 

2.52 

2.50 

.05 

5.32 

4.46 

4.07 

3.84 

3.69 

3.58 

3.50 

3.44 

3.39 

3.35 

3.31 

3.28 

.01 

11.3 

8.65 

7.59 

7.01 

6.63 

6.37 

6.18 

6.03 

5.91 

5.81 

5.73 

5.67 

.25 

1.51 

1.62 

1.63 

1.63 

1.62 

1.61 

1.60 

1.60 

1.59 

1.59 

1.58 

1.58 

.10 

3.36 

3.01 

2.81 

2.69 

2.61 

2.55 

2.51 

2.47 

2.44 

2.42 

2.40 

2.38 

.05 

5.12 

4.26 

3.86 

3.63 

3.48 

3.37 

3.29 

3.23 

3.18 

3.14 

3.10 

3.07 

.01 

10.6 

8.02 

6.99 

6.42 

6.06 

5.80 

5.61 

5.47 

5.35 

5.26 

5.18 

5.11 

( continue i) 

Fuente:  De  E.S.  Pearson  y  H.O.  Hartley  (eds.),  Biometrika  Tables  for  Statisticians,  vol.  1,  3a.  ed.,  tabla  18,  Cambridge  University  Press,  Nueva  York,  1966. 

Se  reproduce  con  autorizacion  de  los  editores  y  los  fideicomisarios  de  Biometrika. 
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{continuation) 


gl  para  el  numerador  Ni 


15 

20 

24 

30 

40 

50 

60 

100 

120 

200 

500 

oo 

Pr 

9.49 

9.58 

9.63 

9.67 

9.71 

9.74 

9.76 

9.78 

9.80 

9.82 

9.84 

9.85 

.25 

61.2 

61.7 

62.0 

62.3 

62.5 

62.7 

62.8 

63.0 

63.1 

63.2 

63.3 

63.3 

.10 

246 

248 

249 

250 

251 

252 

252 

253 

253 

254 

254 

254 

.05 

3.41 

3.43 

3.43 

3.44 

3.45 

3.45 

3.46 

3.47 

3.47 

3.48 

3.48 

3.48 

.25 

9.42 

9.44 

9.45 

9.46 

9.47 

9.47 

9.47 

9.48 

9.48 

9.49 

9.49 

9.49 

.10 

19.4 

19.4 

19.5 

19.5 

19.5 

19.5 

19.5 

19.5 

19.5 

19.5 

19.5 

19.5 

.05 

99.4 

99.4 

99.5 

99.5 

99.5 

99.5 

99.5 

99.5 

99.5 

99.5 

99.5 

99.5 

.01 

2.46 

2.46 

2.46 

2.47 

2.47 

2.47 

2.47 

2.47 

2.47 

2.47 

2.47 

2.47 

.25 

5.20 

5.18 

5.18 

5.17 

5.16 

5.15 

5.15 

5.14 

5.14 

5.14 

5.14 

5.13 

.10 

8.70 

8.66 

8.64 

8.62 

8.59 

8.58 

8.57 

8.55 

8.55 

8.54 

8.53 

8.53 

.05 

26.9 

26.7 

26.6 

26.5 

26.4 

26.4 

26.3 

26.2 

26.2 

26.2 

26.1 

26.1 

.01 

2.08 

2.08 

2.08 

2.08 

2.08 

2.08 

2.08 

2.08 

2.08 

2.08 

2.08 

2.08 

.25 

3.87 

3.84 

3.83 

3.82 

3.80 

3.80 

3.79 

3.78 

3.78 

3.77 

3.76 

3.76 

.10 

5.86 

5.80 

5.77 

5.75 

5.72 

5.70 

5.69 

5.66 

5.66 

5.65 

5.64 

5.63 

.05 

14.2 

14.0 

13.9 

13.8 

13.7 

13.7 

13.7 

13.6 

13.6 

13.5 

13.5 

13.5 

.01 

1.89 

1.88 

1.88 

1.88 

1.88 

1.88 

1.87 

1.87 

1.87 

1.87 

1.87 

1.87 

.25 

3.24 

3.21 

3.19 

3.17 

3.16 

3.15 

3.14 

3.13 

3.12 

3.12 

3.11 

3.10 

.10 

4.62 

4.56 

4.53 

4.50 

4.46 

4.44 

4.43 

4.41 

4.40 

4.39 

4.37 

4.36 

.05 

9.72 

9.55 

9.47 

9.38 

9.29 

9.24 

9.20 

9.13 

9.11 

9.08 

9.04 

9.02 

.01 

1.76 

1.76 

1.75 

1.75 

1.75 

1.75 

1.74 

1.74 

1.74 

1.74 

1.74 

1.74 

.25 

2.87 

2.84 

2.82 

2.80 

2.78 

2.77 

2.76 

2.75 

2.74 

2.73 

2.73 

2.72 

.10 

3.94 

3.87 

3.84 

3.81 

3.77 

3.75 

3.74 

3.71 

3.70 

3.69 

3.68 

3.67 

.05 

7.56 

7.40 

7.31 

7.23 

7.14 

7.09 

7.06 

6.99 

6.97 

6.93 

6.90 

6.88 

.01 

1.68 

1.67 

1.67 

1.66 

1.66 

1.66 

1.65 

1.65 

1.65 

1.65 

1.65 

1.65 

.25 

2.63 

2.59 

2.58 

2.56 

2.54 

2.52 

2.51 

2.50 

2.49 

2.48 

2.48 

2.47 

.10 

3.51 

3.44 

3.41 

3.38 

3.34 

3.32 

3.30 

3.27 

3.27 

3.25 

3.24 

3.23 

.05 

6.31 

6.16 

6.07 

5.99 

5.91 

5.86 

5.82 

5.75 

5.74 

5.70 

5.67 

5.65 

.01 

1.62 

1.61 

1.60 

1.60 

1.59 

1.59 

1.59 

1.58 

1.58 

1.58 

1.58 

1.58 

.25 

2.46 

2.42 

2.40 

2.38 

2.36 

2.35 

2.34 

2.32 

2.32 

2.31 

2.30 

2.29 

.10 

3.22 

3.15 

3.12 

3.08 

3.04 

2.02 

3.01 

2.97 

2.97 

2.95 

2.94 

2.93 

.05 

5.52 

5.36 

5.28 

5.20 

5.12 

5.07 

5.03 

4.96 

4.95 

4.91 

4.88 

4.86 

.01 

1.57 

1.56 

1.56 

1.55 

1.55 

1.54 

1.54 

1.53 

1.53 

1.53 

1.53 

1.53 

.25 

2.34 

2.30 

2.28 

2.25 

2.23 

2.22 

2.21 

2.19 

2.18 

2.17 

2.17 

2.16 

.10 

3.01 

2.94 

2.90 

2.86 

2.83 

2.80 

2.79 

2.76 

2.75 

2.73 

2.72 

2.71 

.05 

4.96 

4.81 

4.73 

4.65 

4.57 

4.52 

4.48 

4.42 

4.40 

4.36 

4.33 

4.31 

.01 

gl  para 
el  deno- 
minador 
N2 


( continua ) 
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TABLA  D.3  Puntos  porcentuales  superiores  de  la  distribucion  F  ( continuation ) 


gl  para 

el  deno- 
minador 

gl  para  el  numerador  Ni 

n2 

Pr 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

.25 

1.49 

1.60 

1.60 

1.59 

1.59 

1.58 

1.57 

1.56 

1.56 

1.55 

1.55 

1.54 

10 

.10 

3.29 

2.92 

2.73 

2.61 

2.52 

2.46 

2.41 

2.38 

2.35 

2.32 

2.30 

2.28 

.05 

4.96 

4.10 

3.71 

3.48 

3.33 

3.22 

3.14 

3.07 

3.02 

2.98 

2.94 

2.91 

.01 

10.0 

7.56 

6.55 

5.99 

5.64 

5.39 

5.20 

5.06 

4.94 

4.85 

4.77 

4.71 

.25 

1.47 

1.58 

1.58 

1.57 

1.56 

1.55 

1.54 

1.53 

1.53 

1.52 

1.52 

1.51 

11 

.10 

3.23 

2.86 

2.66 

2.54 

2.45 

2.39 

2.34 

2.30 

2.27 

2.25 

2.23 

2.21 

.05 

4.84 

3.98 

3.59 

3.36 

3.20 

3.09 

3.01 

2.95 

2.90 

2.85 

2.82 

2.79 

.01 

9.65 

7.21 

6.22 

5.67 

5.32 

5.07 

4.89 

4.74 

4.63 

4.54 

4.46 

4.40 

.25 

1.46 

1.56 

1.56 

1.55 

1.54 

1.53 

1.52 

1.51 

1.51 

1.50 

1.50 

1.49 

12 

.10 

3.18 

2.81 

2.61 

2.48 

2.39 

2.33 

2.28 

2.24 

2.21 

2.19 

2.17 

2.15 

.05 

4.75 

3.89 

3.49 

3.26 

3.11 

3.00 

2.91 

2.85 

2.80 

2.75 

2.72 

2.69 

.01 

9.33 

6.93 

5.95 

5.41 

5.06 

4.82 

4.64 

4.50 

4.39 

4.30 

4.22 

4.16 

.25 

1.45 

1.55 

1.55 

1.53 

1.52 

1.51 

1.50 

1.49 

1.49 

1.48 

1.47 

1.47 

13 

.10 

3.14 

2.76 

2.56 

2.43 

2.35 

2.28 

2.23 

2.20 

2.16 

2.14 

2.12 

2.10 

.05 

4.67 

3.81 

3.41 

3.18 

3.03 

2.92 

2.83 

2.77 

2.71 

2.67 

2.63 

2.60 

.01 

9.07 

6.70 

5.74 

5.21 

4.86 

4.62 

4.44 

4.30 

4.19 

4.10 

4.02 

3.96 

.25 

1.44 

1.53 

1.53 

1.52 

1.51 

1.50 

1.49 

1.48 

1.47 

1.46 

1.46 

1.45 

14 

.10 

3.10 

2.73 

2.52 

2.39 

2.31 

2.24 

2.19 

2.15 

2.12 

2.10 

2.08 

2.05 

.05 

4.60 

3.74 

3.34 

3.11 

2.96 

2.85 

2.76 

2.70 

2.65 

2.60 

2.57 

2.53 

.01 

8.86 

6.51 

5.56 

5.04 

4.69 

4.46 

4.28 

4.14 

4.03 

3.94 

3.86 

3.80 

.25 

1.43 

1.52 

1.52 

1.51 

1.49 

1.48 

1.47 

1.46 

1.46 

1.45 

1.44 

1.44 

15 

.10 

3.07 

2.70 

2.49 

2.36 

2.27 

2.21 

2.16 

2.12 

2.09 

2.06 

2.04 

2.02 

.05 

4.54 

3.68 

3.29 

3.06 

2.90 

2.79 

2.71 

2.64 

2.59 

2.54 

2.51 

2.48 

.01 

8.68 

6.36 

5.42 

4.89 

4.56 

4.32 

4.14 

4.00 

3.89 

3.80 

3.73 

3.67 

.25 

1.42 

1.51 

1.51 

1.50 

1.48 

1.47 

1.46 

1.45 

1.44 

1.44 

1.44 

1.43 

16 

.10 

3.05 

2.67 

2.46 

2.33 

2.24 

2.18 

2.13 

2.09 

2.06 

2.03 

2.01 

1.99 

.05 

4.49 

3.63 

3.24 

3.01 

2.85 

2.74 

2.66 

2.59 

2.54 

2.49 

2.46 

2.42 

.01 

8.53 

6.23 

5.29 

4.77 

4.44 

4.20 

4.03 

3.89 

3.78 

3.69 

3.62 

3.55 

.25 

1.42 

1.51 

1.50 

1.49 

1.47 

1.46 

1.45 

1.44 

1.43 

1.43 

1.42 

1.41 

17 

.10 

3.03 

2.64 

2.44 

2.31 

2.22 

2.15 

2.10 

2.06 

2.03 

2.00 

1.98 

1.96 

.05 

4.45 

3.59 

3.20 

2.96 

2.81 

2.70 

2.61 

2.55 

2.49 

2.45 

2.41 

2.38 

.01 

8.40 

6.11 

5.18 

4.67 

4.34 

4.10 

3.93 

3.79 

3.68 

3.59 

3.52 

3.46 

.25 

1.41 

1.50 

1.49 

1.48 

1.46 

1.45 

1.44 

1.43 

1.42 

1.42 

1.41 

1.40 

18 

.10 

3.01 

2.62 

2.42 

2.29 

2.20 

2.13 

2.08 

2.04 

2.00 

1.98 

1.96 

1.93 

.05 

4.41 

3.55 

3.16 

2.93 

2.77 

2.66 

2.58 

2.51 

2.46 

2.41 

2.37 

2.34 

.01 

8.29 

6.01 

5.09 

4.58 

4.25 

4.01 

3.84 

3.71 

3.60 

3.51 

3.43 

3.37 

.25 

1.41 

1.49 

1.49 

1.47 

1.46 

1.44 

1.43 

1.42 

1.41 

1.41 

1.40 

1.40 

19 

.10 

2.99 

2.61 

2.40 

2.27 

2.18 

2.11 

2.06 

2.02 

1.98 

1.96 

1.94 

1.91 

.05 

4.38 

3.52 

3.13 

2.90 

2.74 

2.63 

2.54 

2.48 

2.42 

2.38 

2.34 

2.31 

.01 

8.18 

5.93 

5.01 

4.50 

4.17 

3.94 

3.77 

3.63 

3.52 

3.43 

3.36 

3.30 

.25 

1.40 

1.49 

1.48 

1.46 

1.45 

1.44 

1.43 

1.42 

1.41 

1.40 

1.39 

1.39 

20 

.10 

2.97 

2.59 

2.38 

2.25 

2.16 

2.09 

2.04 

2.00 

1.96 

1.94 

1.92 

1.89 

.05 

4.35 

3.49 

3.10 

2.87 

2.71 

2.60 

2.51 

2.45 

2.39 

2.35 

2.31 

2.28 

.01 

8.10 

5.85 

4.94 

4.43 

4.10 

3.87 

3.70 

3.56 

3.46 

3.37 

3.29 

3.23 

( continue i) 


Apendice  D  Tablas  estadisticas  883 
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gl  para 

gl  para  el  numerador  Ni 

el  deno- 
minador 

15 

20 

24 

30 

40 

50 

60 

100 

120 

200 

500 

oo 

Pr 

n2 

1.53 

1.52 

1.52 

1.51 

1.51 

1.50 

1.50 

1.49 

1.49 

1.49 

1.48 

1.48 

.25 

2.24 

2.20 

2.18 

2.16 

2.13 

2.12 

2.11 

2.09 

2.08 

2.07 

2.06 

2.06 

.10 

10 

2.85 

2.77 

2.74 

2.70 

2.66 

2.64 

2.62 

2.59 

2.58 

2.56 

2.55 

2.54 

.05 

4.56 

4.41 

4.33 

4.25 

4.17 

4.12 

4.08 

4.01 

4.00 

3.96 

3.93 

3.91 

.01 

1.50 

1.49 

1.49 

1.48 

1.47 

1.47 

1.47 

1.46 

1.46 

1.46 

1.45 

1.45 

.25 

2.17 

2.12 

2.10 

2.08 

2.05 

2.04 

2.03 

2.00 

2.00 

1.99 

1.98 

1.97 

.10 

11 

2.72 

2.65 

2.61 

2.57 

2.53 

2.51 

2.49 

2.46 

2.45 

2.43 

2.42 

2.40 

.05 

4.25 

4.10 

4.02 

3.94 

3.86 

3.81 

3.78 

3.71 

3.69 

3.66 

3.62 

3.60 

.01 

1.48 

1.47 

1.46 

1.45 

1.45 

1.44 

1.44 

1.43 

1.43 

1.43 

1.42 

1.42 

.25 

2.10 

2.06 

2.04 

2.01 

1.99 

1.97 

1.96 

1.94 

1.93 

1.92 

1.91 

1.90 

.10 

12 

2.62 

2.54 

2.51 

2.47 

2.43 

2.40 

2.38 

2.35 

2.34 

2.32 

2.31 

2.30 

.05 

4.01 

3.86 

3.78 

3.70 

3.62 

3.57 

3.54 

3.47 

3.45 

3.41 

3.38 

3.36 

.01 

1.46 

1.45 

1.44 

1.43 

1.42 

1.42 

1.42 

1.41 

1.41 

1.40 

1.40 

1.40 

.25 

2.05 

2.01 

1.98 

1.96 

1.93 

1.92 

1.90 

1.88 

1.88 

1.86 

1.85 

1.85 

.10 

13 

2.53 

2.46 

2.42 

2.38 

2.34 

2.31 

2.30 

2.26 

2.25 

2.23 

2.22 

2.21 

.05 

3.82 

3.66 

3.59 

3.51 

3.43 

3.38 

3.34 

3.27 

3.25 

3.22 

3.19 

3.17 

.01 

1.44 

1.43 

1.42 

1.41 

1.41 

1.40 

1.40 

1.39 

1.39 

1.39 

1.38 

1.38 

.25 

2.01 

1.96 

1.94 

1.91 

1.89 

1.87 

1.86 

1.83 

1.83 

1.82 

1.80 

1.80 

.10 

14 

2.46 

2.39 

2.35 

2.31 

2.27 

2.24 

2.22 

2.19 

2.18 

2.16 

2.14 

2.13 

.05 

3.66 

3.51 

3.43 

3.35 

3.27 

3.22 

3.18 

3.11 

3.09 

3.06 

3.03 

3.00 

.01 

1.43 

1.41 

1.41 

1.40 

1.39 

1.39 

1.38 

1.38 

1.37 

1.37 

1.36 

1.36 

.25 

1.97 

1.92 

1.90 

1.87 

1.85 

1.83 

1.82 

1.79 

1.79 

1.77 

1.76 

1.76 

.10 

15 

2.40 

2.33 

2.29 

2.25 

2.20 

2.18 

2.16 

2.12 

2.11 

2.10 

2.08 

2.07 

.05 

3.52 

3.37 

3.29 

3.21 

3.13 

3.08 

3.05 

2.98 

2.96 

2.92 

2.89 

2.87 

.01 

1.41 

1.40 

1.39 

1.38 

1.37 

1.37 

1.36 

1.36 

1.35 

1.35 

1.34 

1.34 

.25 

1.94 

1.89 

1.87 

1.84 

1.81 

1.79 

1.78 

1.76 

1.75 

1.74 

1.73 

1.72 

.10 

16 

2.35 

2.28 

2.24 

2.19 

2.15 

2.12 

2.11 

2.07 

2.06 

2.04 

2.02 

2.01 

.05 

3.41 

3.26 

3.18 

3.10 

3.02 

2.97 

2.93 

2.86 

2.84 

2.81 

2.78 

2.75 

.01 

1.40 

1.39 

1.38 

1.37 

1.36 

1.35 

1.35 

1.34 

1.34 

1.34 

1.33 

1.33 

.25 

1.91 

1.86 

1.84 

1.81 

1.78 

1.76 

1.75 

1.73 

1.72 

1.71 

1.69 

1.69 

.10 

17 

2.31 

2.23 

2.19 

2.15 

2.10 

2.08 

2.06 

2.02 

2.01 

1.99 

1.97 

1.96 

.05 

3.31 

3.16 

3.08 

3.00 

2.92 

2.87 

2.83 

2.76 

2.75 

2.71 

2.68 

2.65 

.01 

1.39 

1.38 

1.37 

1.36 

1.35 

1.34 

1.34 

1.33 

1.33 

1.32 

1.32 

1.32 

.25 

1.89 

1.84 

1.81 

1.78 

1.75 

1.74 

1.72 

1.70 

1.69 

1.68 

1.67 

1.66 

.10 

18 

2.27 

2.19 

2.15 

2.11 

2.06 

2.04 

2.02 

1.98 

1.97 

1.95 

1.93 

1.92 

.05 

3.23 

3.08 

3.00 

2.92 

2.84 

2.78 

2.75 

2.68 

2.66 

2.62 

2.59 

2.57 

.01 

1.38 

1.37 

1.36 

1.35 

1.34 

1.33 

1.33 

1.32 

1.32 

1.31 

1.31 

1.30 

.25 

1.86 

1.81 

1.79 

1.76 

1.73 

1.71 

1.70 

1.67 

1.67 

1.65 

1.64 

1.63 

.10 

19 

2.23 

2.16 

2.11 

2.07 

2.03 

2.00 

1.98 

1.94 

1.93 

1.91 

1.89 

1.88 

.05 

3.15 

3.00 

2.92 

2.84 

2.76 

2.71 

2.67 

2.60 

2.58 

2.55 

2.51 

2.49 

.01 

1.37 

1.36 

1.35 

1.34 

1.33 

1.33 

1.32 

1.31 

1.31 

1.30 

1.30 

1.29 

.25 

1.84 

1.79 

1.77 

1.74 

1.71 

1.69 

1.68 

1.65 

1.64 

1.63 

1.62 

1.61 

.10 

20 

2.20 

2.12 

2.08 

2.04 

1.99 

1.97 

1.95 

1.91 

1.90 

1.88 

1.86 

1.84 

.05 

3.09 

2.94 

2.86 

2.78 

2.69 

2.64 

2.61 

2.54 

2.52 

2.48 

2.44 

2.42 

.01 

( continua ) 
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TABLA  D.3  Puntos  porcentuales  superiores  de  la  distribucion  F  ( continuation ) 


gl  para 

el  deno- 
minador 

gl  para  el  numerador  N i 

n2 

Pr 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

.25 

1.40 

1.48 

1.47 

1.45 

1.44 

1.42 

1.41 

1.40 

1.39 

1.39 

1.38 

1.37 

22 

.10 

2.95 

2.56 

2.35 

2.22 

2.13 

2.06 

2.01 

1.97 

1.93 

1.90 

1.88 

1.86 

.05 

4.30 

3.44 

3.05 

2.82 

2.66 

2.55 

2.46 

2.40 

2.34 

2.30 

2.26 

2.23 

.01 

7.95 

5.72 

4.82 

4.31 

3.99 

3.76 

3.59 

3.45 

3.35 

3.26 

3.18 

3.12 

.25 

1.39 

1.47 

1.46 

1.44 

1.43 

1.41 

1.40 

1.39 

1.38 

1.38 

1.37 

1.36 

24 

.10 

2.93 

2.54 

2.33 

2.19 

2.10 

2.04 

1.98 

1.94 

1.91 

1.88 

1.85 

1.83 

.05 

4.26 

3.40 

3.01 

2.78 

2.62 

2.51 

2.42 

2.36 

2.30 

2.25 

2.21 

2.18 

.01 

7.82 

5.61 

4.72 

4.22 

3.90 

3.67 

3.50 

3.36 

3.26 

3.17 

3.09 

3.03 

.25 

1.38 

1.46 

1.45 

1.44 

1.42 

1.41 

1.39 

1.38 

1.37 

1.37 

1.36 

1.35 

26 

.10 

2.91 

2.52 

2.31 

2.17 

2.08 

2.01 

1.96 

1.92 

1.88 

1.86 

1.84 

1.81 

.05 

4.23 

3.37 

2.98 

2.74 

2.59 

2.47 

2.39 

2.32 

2.27 

2.22 

2.18 

2.15 

.01 

7.72 

5.53 

4.64 

4.14 

3.82 

3.59 

3.42 

3.29 

3.18 

3.09 

3.02 

2.96 

.25 

1.38 

1.46 

1.45 

1.43 

1.41 

1.40 

1.39 

1.38 

1.37 

1.36 

1.35 

1.34 

28 

.10 

2.89 

2.50 

2.29 

2.16 

2.06 

2.00 

1.94 

1.90 

1.87 

1.84 

1.81 

1.79 

.05 

4.20 

3.34 

2.95 

2.71 

2.56 

2.45 

2.36 

2.29 

2.24 

2.19 

2.15 

2.12 

.01 

7.64 

5.45 

4.57 

4.07 

3.75 

3.53 

3.36 

3.23 

3.12 

3.03 

2.96 

2.90 

.25 

1.38 

1.45 

1.44 

1.42 

1.41 

1.39 

1.38 

1.37 

1.36 

1.35 

1.35 

1.34 

30 

.10 

2.88 

2.49 

2.28 

2.14 

2.05 

1.98 

1.93 

1.88 

1.85 

1.82 

1.79 

1.77 

.05 

4.17 

3.32 

2.92 

2.69 

2.53 

2.42 

2.33 

2.27 

2.21 

2.16 

2.13 

2.09 

.01 

7.56 

5.39 

4.51 

4.02 

3.70 

3.47 

3.30 

3.17 

3.07 

2.98 

2.91 

2.84 

.25 

1.36 

1.44 

1.42 

1.40 

1.39 

1.37 

1.36 

1.35 

1.34 

1.33 

1.32 

1.31 

40 

.10 

2.84 

2.44 

2.23 

2.09 

2.00 

1.93 

1.87 

1.83 

1.79 

1.76 

1.73 

1.71 

.05 

4.08 

3.23 

2.84 

2.61 

2.45 

2.34 

2.25 

2.18 

2.12 

2.08 

2.04 

2.00 

.01 

7.31 

5.18 

4.31 

3.83 

3.51 

3.29 

3.12 

2.99 

2.89 

2.80 

2.73 

2.66 

.25 

1.35 

1.42 

1.41 

1.38 

1.37 

1.35 

1.33 

1.32 

1.31 

1.30 

1.29 

1.29 

60 

.10 

2.79 

2.39 

2.18 

2.04 

1.95 

1.87 

1.82 

1.77 

1.74 

1.71 

1.68 

1.66 

.05 

4.00 

3.15 

2.76 

2.53 

2.37 

2.25 

2.17 

2.10 

2.04 

1.99 

1.95 

1.92 

.01 

7.08 

4.98 

4.13 

3.65 

3.34 

3.12 

2.95 

2.82 

2.72 

2.63 

2.56 

2.50 

.25 

1.34 

1.40 

1.39 

1.37 

1.35 

1.33 

1.31 

1.30 

1.29 

1.28 

1.27 

1.26 

120 

.10 

2.75 

2.35 

2.13 

1.99 

1.90 

1.82 

1.77 

1.72 

1.68 

1.65 

1.62 

1.60 

.05 

3.92 

3.07 

2.68 

2.45 

2.29 

2.17 

2.09 

2.02 

1.96 

1.91 

1.87 

1.83 

.01 

6.85 

4.79 

3.95 

3.48 

3.17 

2.96 

2.79 

2.66 

2.56 

2.47 

2.40 

2.34 

.25 

1.33 

1.39 

1.38 

1.36 

1.34 

1.32 

1.31 

1.29 

1.28 

1.27 

1.26 

1.25 

200 

.10 

2.73 

2.33 

2.11 

1.97 

1.88 

1.80 

1.75 

1.70 

1.66 

1.63 

1.60 

1.57 

.05 

3.89 

3.04 

2.65 

2.42 

2.26 

2.14 

2.06 

1.98 

1.93 

1.88 

1.84 

1.80 

.01 

6.76 

4.71 

3.88 

3.41 

3.11 

2.89 

2.73 

2.60 

2.50 

2.41 

2.34 

2.27 

.25 

1.32 

1.39 

1.37 

1.35 

1.33 

1.31 

1.29 

1.28 

1.27 

1.25 

1.24 

1.24 

OO 

.10 

2.71 

2.30 

2.08 

1.94 

1.85 

1.77 

1.72 

1.67 

1.63 

1.60 

1.57 

1.55 

.05 

3.84 

3.00 

2.60 

2.37 

2.21 

2.10 

2.01 

1.94 

1.88 

1.83 

1.79 

1.75 

.01 

6.63 

4.61 

3.78 

3.32 

3.02 

2.80 

2.64 

2.51 

2.41 

2.32 

2.25 

2.18 
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( continuation ) 


gl  para  el  numerador  /Vi 

gl  para 
el  deno- 
mlnador 
Nz 

15 

20 

24 

30 

40 

50 

60 

100 

120 

200 

500 

OO 

Pr 

1.36 

1.34 

1.33 

1.32 

1.31 

1.31 

1.30 

1.30 

1.30 

1.29 

1.29 

1.28 

.25 

1.81 

1.76 

1.73 

1.70 

1.67 

1.65 

1.64 

1.61 

1.60 

1.59 

1.58 

1.57 

.10 

2.15 

2.07 

2.03 

1.98 

1.94 

1.91 

1.89 

1.85 

1.84 

1.82 

1.80 

1.78 

.05 

2.98 

2.83 

2.75 

2.67 

2.58 

2.53 

2.50 

2.42 

2.40 

2.36 

2.33 

2.31 

.01 

1.35 

1.33 

1.32 

1.31 

1.30 

1.29 

1.29 

1.28 

1.28 

1.27 

1.27 

1.26 

.25 

1.78 

1.73 

1.70 

1.67 

1.64 

1.62 

1.61 

1.58 

1.57 

1.56 

1.54 

1.53 

.10 

24 

2.11 

2.03 

1.98 

1.94 

1.89 

1.86 

1.84 

1.80 

1.79 

1.77 

1.75 

1.73 

.05 

2.89 

2.74 

2.66 

2.58 

2.49 

2.44 

2.40 

2.33 

2.31 

2.27 

2.24 

2.21 

.01 

1.34 

1.32 

1.31 

1.30 

1.29 

1.28 

1.28 

1.26 

1.26 

1.26 

1.25 

1.25 

.25 

1.76 

1.71 

1.68 

1.65 

1.61 

1.59 

1.58 

1.55 

1.54 

1.53 

1.51 

1.50 

.10 

26 

2.07 

1.99 

1.95 

1.90 

1.85 

1.82 

1.80 

1.76 

1.75 

1.73 

1.71 

1.69 

.05 

2.81 

2.66 

2.58 

2.50 

2.42 

2.36 

2.33 

2.25 

2.23 

2.19 

2.16 

2.13 

.01 

1.33 

1.31 

1.30 

1.29 

1.28 

1.27 

1.27 

1.26 

1.25 

1.25 

1.24 

1.24 

.25 

1.74 

1.69 

1.66 

1.63 

1.59 

1.57 

1.56 

1.53 

1.52 

1.50 

1.49 

1.48 

.10 

2.04 

1.96 

1.91 

1.87 

1.82 

1.79 

1.77 

1.73 

1.71 

1.69 

1.67 

1.65 

.05 

2.75 

2.60 

2.52 

2.44 

2.35 

2.30 

2.26 

2.19 

2.17 

2.13 

2.09 

2.06 

.01 

1.32 

1.30 

1.29 

1.28 

1.27 

1.26 

1.26 

1.25 

1.24 

1.24 

1.23 

1.23 

.25 

1.72 

1.67 

1.64 

1.61 

1.57 

1.55 

1.54 

1.51 

1.50 

1.48 

1.47 

1.46 

.10 

2.01 

1.93 

1.89 

1.84 

1.79 

1.76 

1.74 

1.70 

1.68 

1.66 

1.64 

1.62 

.05 

2.70 

2.55 

2.47 

2.39 

2.30 

2.25 

2.21 

2.13 

2.11 

2.07 

2.03 

2.01 

.01 

1.30 

1.28 

1.26 

1.25 

1.24 

1.23 

1.22 

1.21 

1.21 

1.20 

1.19 

1.19 

.25 

1.66 

1.61 

1.57 

1.54 

1.51 

1.48 

1.47 

1.43 

1.42 

1.41 

1.39 

1.38 

.10 

1.92 

1.84 

1.79 

1.74 

1.69 

1.66 

1.64 

1.59 

1.58 

1.55 

1.53 

1.51 

.05 

2.52 

2.37 

2.29 

2.20 

2.11 

2.06 

2.02 

1.94 

1.92 

1.87 

1.83 

1.80 

.01 

1.27 

1.25 

1.24 

1.22 

1.21 

1.20 

1.19 

1.17 

1.17 

1.16 

1.15 

1.15 

.25 

1.60 

1.54 

1.51 

1.48 

1.44 

1.41 

1.40 

1.36 

1.35 

1.33 

1.31 

1.29 

.10 

1.84 

1.75 

1.70 

1.65 

1.59 

1.56 

1.53 

1.48 

1.47 

1.44 

1.41 

1.39 

.05 

2.35 

2.20 

2.12 

2.03 

1.94 

1.88 

1.84 

1.75 

1.73 

1.68 

1.63 

1.60 

.01 

1.24 

1.22 

1.21 

1.19 

1.18 

1.17 

1.16 

1.14 

1.13 

1.12 

1.11 

1.10 

.25 

1.55 

1.48 

1.45 

1.41 

1.37 

1.34 

1.32 

1.27 

1.26 

1.24 

1.21 

1.19 

.10 

120 

1.75 

1.66 

1.61 

1.55 

1.50 

1.46 

1.43 

1.37 

1.35 

1.32 

1.28 

1.25 

.05 

2.19 

2.03 

1.95 

1.86 

1.76 

1.70 

1.66 

1.56 

1.53 

1.48 

1.42 

1.38 

.01 

1.23 

1.21 

1.20 

1.18 

1.16 

1.14 

1.12 

1.11 

1.10 

1.09 

1.08 

1.06 

.25 

1.52 

1.46 

1.42 

1.38 

1.34 

1.31 

1.28 

1.24 

1.22 

1.20 

1.17 

1.14 

.10 

200 

1.72 

1.62 

1.57 

1.52 

1.46 

1.41 

1.39 

1.32 

1.29 

1.26 

1.22 

1.19 

.05 

2.13 

1.97 

1.89 

1.79 

1.69 

1.63 

1.58 

1.48 

1.44 

1.39 

1.33 

1.28 

.01 

1.22 

1.19 

1.18 

1.16 

1.14 

1.13 

1.12 

1.09 

1.08 

1.07 

1.04 

1.00 

.25 

1.49 

1.42 

1.38 

1.34 

1.30 

1.26 

1.24 

1.18 

1.17 

1.13 

1.08 

1.00 

.10 

1.67 

1.57 

1.52 

1.46 

1.39 

1.35 

1.32 

1.24 

1.22 

1.17 

1.11 

1.00 

.05 

2.04 

1.88 

1.79 

1.70 

1.59 

1.52 

1.47 

1.36 

1.32 

1.25 

1.15 

1.00 

.01 
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TAB  LA  D.4 

Puntos  porcentuales 
superiores  de  la  distribu- 
cion  x2 


Ejemplo 

Pr(x2  >  10.85)  =  0.95 

Pr(x2  >  23.83)  =  0.25  para  gl  =  20 

Pr(x2  >  31.41)  =  0.05 


0  10.85  23.83  31.41 


Grados  Pr 
de  libertad 

.995 

.990 

.975 

.950 

.900 

1 

392704  x  1 0  10 

157088  x  10-9 

982069  x  10~9 

393214  x  10-8 

.0157908 

2 

.0100251 

.0201007 

.0506356 

.102587 

.210720 

3 

.0717212 

.114832 

.215795 

.351846 

.584375 

4 

.206990 

.297110 

.48441  9 

.710721 

1.063623 

5 

.411740 

.554300 

.831211 

1.145476 

1.61031 

6 

.675727 

.872085 

1.237347 

1.63539 

2.20413 

7 

.989265 

1.239043 

1.68987 

2.16735 

2.83311 

8 

1.344419 

1 .646482 

2.17973 

2.73264 

3.48954 

9 

1.734926 

2.087912 

2.70039 

3.32511 

4.16816 

10 

2.15585 

2.55821 

3.24697 

3.94030 

4.86518 

11 

2.60321 

3.05347 

3.81575 

4.57481 

5.57779 

12 

3.07382 

3.57056 

4.40379 

5.22603 

6.30380 

13 

3.56503 

4.10691 

5.00874 

5.89186 

7.04150 

14 

4.07468 

4.66043 

5.62872 

6.57063 

7.78953 

15 

4.60094 

5.22935 

6.26214 

7.26094 

8.54675 

16 

5.14224 

5.81221 

6.90766 

7.96164 

9.31223 

17 

5.69724 

6.40776 

7.56418 

8.67176 

10.0852 

18 

6.26481 

7.01491 

8.23075 

9.39046 

10.8649 

19 

6.84398 

7.63273 

8.90655 

10.1170 

11.6509 

20 

7.43386 

8.26040 

9.59083 

10.8508 

12.4426 

21 

8.03366 

8.89720 

10.28293 

11.5913 

13.2396 

22 

8.64272 

9.54249 

10.9823 

12.3380 

14.0415 

23 

9.26042 

10.19567 

1 1 .6885 

13.0905 

14.8479 

24 

9.88623 

10.8564 

12.4011 

13.8484 

15.6587 

25 

10.5197 

11.5240 

13.1197 

14.6114 

16.4734 

26 

11.1603 

12.1981 

13.8439 

15.3791 

17.2919 

27 

11.8076 

12.8786 

14.5733 

16.1513 

18.1138 

28 

12.4613 

13.5648 

15.3079 

16.9279 

18.9392 

29 

13.1211 

14.2565 

16.0471 

17.7083 

19.7677 

30 

13.7867 

14.9535 

16.7908 

18.4926 

20.5992 

40 

20.7065 

22.1643 

24.4331 

26.5093 

29.0505 

50 

27.9907 

29.7067 

32.3574 

34.7642 

37.6886 

60 

35.5346 

37.4848 

40.4817 

43.1879 

46.4589 

70 

43.2752 

45.4418 

48.7576 

51.7393 

55.3290 

80 

51.1720 

53.5400 

57.1532 

60.3915 

64.2778 

90 

59.1963 

61.7541 

65.6466 

69.1260 

73.2912 

100* 

67.3276 

70.0648 

74.2219 

77.9295 

82.3581 

(conti nua) 


*  Para  gl  mayores  que  100,  la  expresion  *s/(2k—  1)  =  Z  sigue  la  distribution  normal  estandarizada,  donde  k  representa 

los  grados  de  libertad. 
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( continuation ) 


.750 

.500 

.250 

.100 

.050 

.025 

.010 

.005 

.1015308 

.454937 

1.32330 

2.70554 

3.84146 

5.02389 

6.63490 

7.87944 

.575364 

1.38629 

2.77259 

4.60517 

5.99147 

7.37776 

9.21034 

10.5966 

1.212534 

2.36597 

4.10835 

6.25139 

7.81473 

9.34840 

11.3449 

12.8381 

1.92255 

3.35670 

5.38527 

7.77944 

9.48773 

11.1433 

13.2767 

14.8602 

2.67460 

4.35146 

6.62568 

9.23635 

11.0705 

12.8325 

15.0863 

16.7496 

3.45460 

5.34812 

7.84080 

10.6446 

12.5916 

14.4494 

16.8119 

18.5476 

4.25485 

6.34581 

9.03715 

12.0170 

14.0671 

16.0128 

18.4753 

20.2777 

5.07064 

7.34412 

10.2188 

13.3616 

15.5073 

17.5346 

20.0902 

21.9550 

5.89883 

8.34283 

11.3887 

14.6837 

16.9190 

19.0228 

21.6660 

23.5893 

6.73720 

9.34182 

12.5489 

15.9871 

18.3070 

20.4831 

23.2093 

25.1882 

7.58412 

10.3410 

13.7007 

17.2750 

19.6751 

21.9200 

24.7250 

26.7569 

8.43842 

11.3403 

14.8454 

18.5494 

21.0261 

23.3367 

26.2170 

28.2995 

9.29906 

12.3398 

15.9839 

19.8119 

22.3621 

24.7356 

27.6883 

29.8194 

10.1653 

13.3393 

17.1170 

21.0642 

23.6848 

26.1190 

29.1413 

31.3193 

11.0365 

14.3389 

18.2451 

22.3072 

24.9958 

27.4884 

30.5779 

32.8013 

11.9122 

15.3385 

19.3688 

23.5418 

26.2962 

28.8454 

31.9999 

34.2672 

12.7919 

16.3381 

20.4887 

24.7690 

27.5871 

30.1910 

33.4087 

35.7185 

13.6753 

17.3379 

21.6049 

25.9894 

28.8693 

31.5264 

34.8053 

37.1564 

14.5620 

18.3376 

22.7178 

27.2036 

30.1435 

32.8523 

36.1908 

38.5822 

15.4518 

19.3374 

23.8277 

28.4120 

31.4104 

34.1696 

37.5662 

39.9968 

16.3444 

20.3372 

24.9348 

29.6151 

32.6705 

35.4789 

38.9321 

41.4010 

17.2396 

21.3370 

26.0393 

30.8133 

33.9244 

36.7807 

40.2894 

42.7956 

18.1373 

22.3369 

27.1413 

32.0069 

35.1725 

38.0757 

41.6384 

44.1813 

19.0372 

23.3367 

28.2412 

33.1963 

36.4151 

39.3641 

42.9798 

45.5585 

19.9393 

24.3366 

29.3389 

34.3816 

37.6525 

40.6465 

44.3141 

46.9278 

20.8434 

25.3364 

30.4345 

35.5631 

38.8852 

41.9232 

45.6417 

48.2899 

21.7494 

26.3363 

31.5284 

36.7412 

40.1133 

43.1944 

46.9630 

49.6449 

22.6572 

27.3363 

32.6205 

37.9159 

41.3372 

44.4607 

48.2782 

50.9933 

23.5666 

28.3362 

33.7109 

39.0875 

42.5569 

45.7222 

49.5879 

52.3356 

24.4776 

29.3360 

34.7998 

40.2560 

43.7729 

46.9792 

50.8922 

53.6720 

33.6603 

39.3354 

45.6160 

51.8050 

55.7585 

59.3417 

63.6907 

66.7659 

42.9421 

49.3349 

56.3336 

63.1671 

67.5048 

71.4202 

76.1539 

79.4900 

52.2938 

59.3347 

66.9814 

74.3970 

79.0819 

83.2976 

88.3794 

91.9517 

61.6983 

69.3344 

77.5766 

85.5271 

90.5312 

95.0231 

100.425 

104.215 

71.1445 

79.3343 

88.1303 

96.5782 

101.879 

106.629 

112.329 

116.321 

80.6247 

89.3342 

98.6499 

107.565 

113.145 

118.136 

124.116 

128.299 

90.1332 

99.3341 

109.141 

118.498 

124.342 

129.561 

135.807 

140.169 

Fuente:  Compendio  de  E.S.  Pearson  y  H.O.  Hartley  (eds.),  Biometrika  Tables  for  Statisticians,  vol.  1,  3a.  ed.,  tabla  8,  Cambridge  University  Press,  Nueva  York, 
1966.  Se  reproduce  con  autorizacion  de  los  editores  y  los  fideicomisarios  de  Biometrika. 
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TABLA  D.5A  Estadistico  d  de  Durbin- Watson:  puntos  de  significance  de  dL  y  r/(  en  el  nivel  de  significance  de  0.05 


n 

k'  = 

:  1 

k'  = 

=  2 

k'  = 

3 

k'  = 

4 

k'  = 

-  5 

k'-- 

=  6 

k’-- 

=  7 

k’-- 

=  8 

k'-. 

=  9 

k'  = 

=  10 

dL 

du 

dL 

du 

dL 

du 

dL 

du 

dL 

du 

dL 

du 

dL 

du 

dL 

du 

dL 

du 

dL 

du 

6 

0.610 

1.400 

7 

0.700 

1.356 

0.467 

1.896 

8 

0.763 

1.332 

0.559 

1.777 

0.368 

2.287 

9 

0.824 

1.320 

0.629 

1.699 

0.455 

2.128 

0.296 

2.588 

10 

0.879 

1.320 

0.697 

1.641 

0.525 

2.016 

0.376 

2.414 

0.243 

2.822 

11 

0.927 

1.324 

0.658 

1.604 

0.595 

1.928 

0.444 

2.283 

0.316 

2.645 

0.203 

3.005 

— 

— 

— 

— 

— 

— 

— 

— 

12 

0.971 

1.331 

0.812 

1.579 

0.658 

1.864 

0.512 

2.177 

0.379 

2.506 

0.268 

2.832 

0.171 

3.149 

— 

— 

— 

— 

— 

— 

13 

1.010 

1.340 

0.861 

1.562 

0.715 

1.816 

0.574 

2.094 

0.445 

2.390 

0.328 

2.692 

0.230 

2.985 

0.147 

3.266 

— 

— 

— 

— 

14 

1.045 

1.350 

0.905 

1.551 

0.767 

1.779 

0.632 

2.030 

0.505 

2.296 

0.389 

2.572 

0.286 

2.848 

0.200 

3.111 

0.127 

3.360 

— 

— 

15 

1.077 

1.361 

0.946 

1.543 

0.814 

1.750 

0.685 

1.977 

0.562 

2.220 

0.447 

2.472 

0.343 

2.727 

0.251 

2.979 

0.175 

3.216 

0.111 

3.438 

16 

1.106 

1.371 

0.982 

1.539 

0.857 

1.728 

0.734 

1.935 

0.615 

2.157 

0.502 

2.388 

0.398 

2.624 

0.304 

2.860 

0.222 

3.090 

0.155 

3.304 

17 

1.133 

1.381 

1.015 

1.536 

0.897 

1.710 

0.779 

1.900 

0.664 

2.104 

0.554 

2.318 

0.451 

2.537 

0.356 

2.757 

0.272 

2.975 

0.198 

3.184 

18 

1.158 

1.391 

1.046 

1.535 

0.933 

1.696 

0.820 

1.872 

0.710 

2.060 

0.603 

2.257 

0.502 

2.461 

0.407 

2.667 

0.321 

2.873 

0.244 

3.073 

19 

1.180 

1.401 

1.074 

1.536 

0.967 

1.685 

0.859 

1.848 

0.752 

2.023 

0.649 

2.206 

0.549 

2.396 

0.456 

2.589 

0.369 

2.783 

0.290 

2.974 

20 

1.201 

1.411 

1.100 

1.537 

0.998 

1.676 

0.894 

1.828 

0.792 

1.991 

0.692 

2.162 

0.595 

2.339 

0.502 

2.521 

0.416 

2.704 

0.336 

2.885 

21 

1.221 

1.420 

1.125 

1.538 

1.026 

1.669 

0.927 

1.812 

0.829 

1.964 

0.732 

2.124 

0.637 

2.290 

0.547 

2.460 

0.461 

2.633 

0.380 

2.806 

22 

1.239 

1.429 

1.147 

1.541 

1.053 

1.664 

0.958 

1.797 

0.863 

1.940 

0.769 

2.090 

0.677 

2.246 

0.588 

2.407 

0.504 

2.571 

0.424 

2.734 

23 

1.257 

1.437 

1.168 

1.543 

1.078 

1.660 

0.986 

1.785 

0.895 

1.920 

0.804 

2.061 

0.715 

2.208 

0.628 

2.360 

0.545 

2.514 

0.465 

2.670 

24 

1.273 

1.446 

1.188 

1.546 

1.101 

1.656 

1.013 

1.775 

0.925 

1.902 

0.837 

2.035 

0.751 

2.174 

0.666 

2.318 

0.584 

2.464 

0.506 

2.613 

25 

1.288 

1.454 

1.206 

1.550 

1.123 

1.654 

1.038 

1.767 

0.953 

1.886 

0.868 

2.012 

0.784 

2.144 

0.702 

2.280 

0.621 

2.419 

0.544 

2.560 

26 

1.302 

1.461 

1.224 

1.553 

1.143 

1.652 

1.062 

1.759 

0.979 

1.873 

0.897 

1.992 

0.816 

2.117 

0.735 

2.246 

0.657 

2.379 

0.581 

2.513 

27 

1.316 

1.469 

1.240 

1.556 

1.162 

1.651 

1.084 

1.753 

1.004 

1.861 

0.925 

1.974 

0.845 

2.093 

0.767 

2.216 

0.691 

2.342 

0.616 

2.470 

28 

1.328 

1.476 

1.255 

1.560 

1.181 

1.650 

1.104 

1.747 

1.028 

1.850 

0.951 

1.958 

0.874 

2.071 

0.798 

2.188 

0.723 

2.309 

0.650 

2.431 

29 

1.341 

1.483 

1.270 

1.563 

1.198 

1.650 

1.124 

1.743 

1.050 

1.841 

0.975 

1.944 

0.900 

2.052 

0.826 

2.164 

0.753 

2.278 

0.682 

2.396 

30 

1.352 

1.489 

1.284 

1.567 

1.214 

1.650 

1.143 

1.739 

1.071 

1.833 

0.998 

1.931 

0.926 

2.034 

0.854 

2.141 

0.782 

2.251 

0.712 

2.363 

31 

1.363 

1.496 

1.297 

1.570 

1.229 

1.650 

1.160 

1.735 

1.090 

1.825 

1.020 

1.920 

0.950 

2.018 

0.879 

2.120 

0.810 

2.226 

0.741 

2.333 

32 

1.373 

1.502 

1.309 

1.574 

1.244 

1.650 

1.177 

1.732 

1.109 

1.819 

1.041 

1.909 

0.972 

2.004 

0.904 

2.102 

0.836 

2.203 

0.769 

2.306 

33 

1.383 

1.508 

1.321 

1.577 

1.258 

1.651 

1.193 

1.730 

1.127 

1.813 

1.061 

1.900 

0.994 

1.991 

0.927 

2.085 

0.861 

2.181 

0.795 

2.281 

34 

1.393 

1.514 

1.333 

1.580 

1.271 

1.652 

1.208 

1.728 

1.144 

1.808 

1.080 

1.891 

1.015 

1.979 

0.950 

2.069 

0.885 

2.162 

0.821 

2.257 

35 

1.402 

1.519 

1.343 

1.584 

1.283 

1.653 

1.222 

1.726 

1.160 

1.803 

1.097 

1.884 

1.034 

1.967 

0.971 

2.054 

0.908 

2.144 

0.845 

2.236 

36 

1.411 

1.525 

1.354 

1.587 

1.295 

1.654 

1.236 

1.724 

1.175 

1.799 

1.114 

1.877 

1.053 

1.957 

0.991 

2.041 

0.930 

2.127 

0.868 

2.216 

37 

1.419 

1.530 

1.364 

1.590 

1.307 

1.655 

1.249 

1.723 

1.190 

1.795 

1.131 

1.870 

1.071 

1.948 

1.011 

2.029 

0.951 

2.112 

0.891 

2.198 

38 

1.427 

1.535 

1.373 

1.594 

1.318 

1.656 

1.261 

1.722 

1.204 

1.792 

1.146 

1.864 

1.088 

1.939 

1.029 

2.017 

0.970 

2.098 

0.912 

2.180 

39 

1.435 

1.540 

1.382 

1.597 

1.328 

1.658 

1.273 

1.722 

1.218 

1.789 

1.161 

1.859 

1.104 

1.932 

1.047 

2.007 

0.990 

2.085 

0.932 

2.164 

40 

1.442 

1.544 

1.391 

1.600 

1.338 

1.659 

1.285 

1.721 

1.230 

1.786 

1.175 

1.854 

1.120 

1.924 

1.064 

1.997 

1.008 

2.072 

0.952 

2.149 

45 

1.475 

1.566 

1.430 

1.615 

1.383 

1.666 

1.336 

1.720 

1.287 

1.776 

1.238 

1.835 

1.189 

1.895 

1.139 

1.958 

1.089 

2.022 

1.038 

2.088 

50 

1.503 

1.585 

1.462 

1.628 

1.421 

1.674 

1.378 

1.721 

1.335 

1.771 

1.291 

1.822 

1.246 

1.875 

1.201 

1.930 

1.156 

1.986 

1.110 

2.044 

55 

1.528 

1.601 

1.490 

1.641 

1.452 

1.681 

1.414 

1.724 

1.374 

1.768 

1.334 

1.814 

1.294 

1.861 

1.253 

1.909 

1.212 

1.959 

1.170 

2.010 

60 

1.549 

1.616 

1.514 

1.652 

1.480 

1.689 

1.444 

1.727 

1.408 

1.767 

1.372 

1.808 

1.335 

1.850 

1.298 

1.894 

1.260 

1.939 

1.222 

1.984 

65 

1.567 

1.629 

1.536 

1.662 

1.503 

1.696 

1.471 

1.731 

1.438 

1.767 

1.404 

1.805 

1.370 

1.843 

1.336 

1.882 

1.301 

1.923 

1.266 

1.964 

70 

1.583 

1.641 

1.554 

1.672 

1.525 

1.703 

1.494 

1.735 

1.464 

1.768 

1.433 

1.802 

1.401 

1.837 

1.369 

1.873 

1.337 

1.910 

1.305 

1.948 

75 

1.598 

1.652 

1.571 

1.680 

1.543 

1.709 

1.515 

1.739 

1.487 

1.770 

1.458 

1.801 

1.428 

1.834 

1.399 

1.867 

1.369 

1.901 

1.339 

1.935 

80 

1.611 

1.662 

1.586 

1.688 

1.560 

1.715 

1.534 

1.743 

1.507 

1.772 

1.480 

1.801 

1.453 

1.831 

1.425 

1.861 

1.397 

1.893 

1.369 

1.925 

85 

1.624 

1.671 

1.600 

1.696 

1.575 

1.721 

1.550 

1.747 

1.525 

1.774 

1.500 

1.801 

1.474 

1.829 

1.448 

1.857 

1.422 

1.886 

1.396 

1.916 

90 

1.635 

1.679 

1.612 

1.703 

1.589 

1.726 

1.566 

1.751 

1.542 

1.776 

1.518 

1.801 

1.494 

1.827 

1.469 

1.854 

1.445 

1.881 

1.420 

1.909 

95 

1.645 

1.687 

1.623 

1.709 

1.602 

1.732 

1.579 

1.755 

1.557 

1.778 

1.535 

1.802 

1.512 

1.827 

1.489 

1.852 

1.465 

1.877 

1.442 

1.903 

100 

1.654 

1.694 

1.634 

1.715 

1.613 

1.736 

1.592 

1.758 

1.571 

1.780 

1.550 

1.803 

1.528 

1.826 

1.506 

1.850 

1.484 

1.874 

1.462 

1.898 

150 

1.720 

1.746 

1.706 

1.760 

1.693 

1.774 

1.679 

1.788 

1.665 

1.802 

1.651 

1.817 

1.637 

1.832 

1.622 

1.847 

1.608 

1.862 

1.594 

1.877 

200 

1.758 

1.778 

1.748 

1.789 

1.738 

1.799 

1.728 

1.810 

1.718 

1.820 

1.707 

1.831 

1.697 

1.841 

1.686 

1.852 

1.675 

1.863 

1.665 

1.874 

( continue i) 
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n 

k'  = 

:  11 

k'  = 

=  12 

k'  = 

=  13 

k'  = 

:  14 

k'  = 

:  15 

k’  = 

:  16 

k'  = 

:  17 

k'  = 

=  18 

k'  = 

=  19 

k'  = 

=  20 

dL 

du 

dL 

du 

dL 

du 

dL 

du 

dL 

du 

dL 

du 

dL 

du 

dL 

du 

dL 

du 

dL 

du 

16 

0.098 

3.503 

17 

0.138 

3.378 

0.087 

3.557 

18 

0.177 

3.265 

0.123 

3.441 

0.078 

3.603 

19 

0.220 

3.159 

0.160 

3.335 

0.111 

3.496 

0.070 

3.642 

20 

0.263 

3.063 

0.200 

3.234 

0.145 

3.395 

0.100 

3.542 

0.063 

3.676 

21 

0.307 

2.976 

0.240 

3.141 

0.182 

3.300 

0.132 

3.448 

0.091 

3.583 

0.058 

3.705 

— 

— 

— 

— 

— 

— 

— 

— 

22 

0.349 

2.897 

0.281 

3.057 

0.220 

3.211 

0.166 

3.358 

0.120 

3.495 

0.083 

3.619 

0.052 

3.731 

— 

— 

— 

— 

— 

— 

23 

0.391 

2.826 

0.322 

2.979 

0.259 

3.128 

0.202 

3.272 

0.153 

3.409 

0.110 

3.535 

0.076 

3.650 

0.048 

3.753 

— 

— 

— 

— 

24 

0.431 

2.761 

0.362 

2.908 

0.297 

3.053 

0.239 

3.193 

0.186 

3.327 

0.141 

3.454 

0.101 

3.572 

0.070 

3.678 

0.044 

3.773 

— 

— 

25 

0.470 

2.702 

0.400 

2.844 

0.335 

2.983 

0.275 

3.119 

0.221 

3.251 

0.172 

3.376 

0.130 

3.494 

0.094 

3.604 

0.065 

3.702 

0.041 

3.790 

26 

0.508 

2.649 

0.438 

2.784 

0.373 

2.919 

0.312 

3.051 

0.256 

3.179 

0.205 

3.303 

0.160 

3.420 

0.120 

3.531 

0.087 

3.632 

0.060 

3.724 

27 

0.544 

2.600 

0.475 

2.730 

0.409 

2.859 

0.348 

2.987 

0.291 

3.112 

0.238 

3.233 

0.191 

3.349 

0.149 

3.460 

0.112 

3.563 

0.081 

3.658 

28 

0.578 

2.555 

0.510 

2.680 

0.445 

2.805 

0.383 

2.928 

0.325 

3.050 

0.271 

3.168 

0.222 

3.283 

0.178 

3.392 

0.138 

3.495 

0.104 

3.592 

29 

0.612 

2.515 

0.544 

2.634 

0.479 

2.755 

0.418 

2.874 

0.359 

2.992 

0.305 

3.107 

0.254 

3.219 

0.208 

3.327 

0.166 

3.431 

0.129 

3.528 

30 

0.643 

2.477 

0.577 

2.592 

0.512 

2.708 

0.451 

2.823 

0.392 

2.937 

0.337 

3.050 

0.286 

3.160 

0.238 

3.266 

0.195 

3.368 

0.156 

3.465 

31 

0.674 

2.443 

0.608 

2.553 

0.545 

2.665 

0.484 

2.776 

0.425 

2.887 

0.370 

2.996 

0.317 

3.103 

0.269 

3.208 

0.224 

3.309 

0.183 

3.406 

32 

0.703 

2.411 

0.638 

2.517 

0.576 

2.625 

0.515 

2.733 

0.457 

2.840 

0.401 

2.946 

0.349 

3.050 

0.299 

3.153 

0.253 

3.252 

0.211 

3.348 

33 

0.731 

2.382 

0.668 

2.484 

0.606 

2.588 

0.546 

2.692 

0.488 

2.796 

0.432 

2.899 

0.379 

3.000 

0.329 

3.100 

0.283 

3.198 

0.239 

3.293 

34 

0.758 

2.355 

0.695 

2.454 

0.634 

2.554 

0.575 

2.654 

0.518 

2.754 

0.462 

2.854 

0.409 

2.954 

0.359 

3.051 

0.312 

3.147 

0.267 

3.240 

35 

0.783 

2.330 

0.722 

2.425 

0.662 

2.521 

0.604 

2.619 

0.547 

2.716 

0.492 

2.813 

0.439 

2.910 

0.388 

3.005 

0.340 

3.099 

0.295 

3.190 

36 

0.808 

2.306 

0.748 

2.398 

0.689 

2.492 

0.631 

2.586 

0.575 

2.680 

0.520 

2.774 

0.467 

2.868 

0.417 

2.961 

0.369 

3.053 

0.323 

3.142 

37 

0.831 

2.285 

0.772 

2.374 

0.714 

2.464 

0.657 

2.555 

0.602 

2.646 

0.548 

2.738 

0.495 

2.829 

0.445 

2.920 

0.397 

3.009 

0.351 

3.097 

38 

0.854 

2.265 

0.796 

2.351 

0.739 

2.438 

0.683 

2.526 

0.628 

2.614 

0.575 

2.703 

0.522 

2.792 

0.472 

2.880 

0.424 

2.968 

0.378 

3.054 

39 

0.875 

2.246 

0.819 

2.329 

0.763 

2.413 

0.707 

2.499 

0.653 

2.585 

0.600 

2.671 

0.549 

2.757 

0.499 

2.843 

0.451 

2.929 

0.404 

3.013 

40 

0.896 

2.228 

0.840 

2.309 

0.785 

2.391 

0.731 

2.473 

0.678 

2.557 

0.626 

2.641 

0.575 

2.724 

0.525 

2.808 

0.477 

2.892 

0.430 

2.974 

45 

0.988 

2.156 

0.938 

2.225 

0.887 

2.296 

0.838 

2.367 

0.788 

2.439 

0.740 

2.512 

0.692 

2.586 

0.644 

2.659 

0.598 

2.733 

0.553 

2.807 

50 

1.064 

2.103 

1.019 

2.163 

0.973 

2.225 

0.927 

2.287 

0.882 

2.350 

0.836 

2.414 

0.792 

2.479 

0.747 

2.544 

0.703 

2.610 

0.660 

2.675 

55 

1.129 

2.062 

1.087 

2.116 

1.045 

2.170 

1.003 

2.225 

0.961 

2.281 

0.919 

2.338 

0.877 

2.396 

0.836 

2.454 

0.795 

2.512 

0.754 

2.571 

60 

1.184 

2.031 

1.145 

2.079 

1.106 

2.127 

1.068 

2.177 

1.029 

2.227 

0.990 

2.278 

0.951 

2.330 

0.913 

2.382 

0.874 

2.434 

0.836 

2.487 

65 

1.231 

2.006 

1.195 

2.049 

1.160 

2.093 

1.124 

2.138 

1.088 

2.183 

1.052 

2.229 

1.016 

2.276 

0.980 

2.323 

0.944 

2.371 

0.908 

2.419 

70 

1.272 

1.986 

1.239 

2.026 

1.206 

2.066 

1.172 

2.106 

1.139 

2.148 

1.105 

2.189 

1.072 

2.232 

1.038 

2.275 

1.005 

2.318 

0.971 

2.362 

75 

1.308 

1.970 

1.277 

2.006 

1.247 

2.043 

1.215 

2.080 

1.184 

2.118 

1.153 

2.156 

1.121 

2.195 

1.090 

2.235 

1.058 

2.275 

1.027 

2.315 

80 

1.340 

1.957 

1.311 

1.991 

1.283 

2.024 

1.253 

2.059 

1.224 

2.093 

1.195 

2.129 

1.165 

2.165 

1.136 

2.201 

1.106 

2.238 

1.076 

2.275 

85 

1.369 

1.946 

1.342 

1.977 

1.315 

2.009 

1.287 

2.040 

1.260 

2.073 

1.232 

2.105 

1.205 

2.139 

1.177 

2.172 

1.149 

2.206 

1.121 

2.241 

90 

1.395 

1.937 

1.369 

1.966 

1.344 

1.995 

1.318 

2.025 

1.292 

2.055 

1.266 

2.085 

1.240 

2.116 

1.213 

2.148 

1.187 

2.179 

1.160 

2.211 

95 

1.418 

1.929 

1.394 

1.956 

1.370 

1.984 

1.345 

2.012 

1.321 

2.040 

1.296 

2.068 

1.271 

2.097 

1.247 

2.126 

1.222 

2.156 

1.197 

2.186 

100 

1.439 

1.923 

1.416 

1.948 

1.393 

1.974 

1.371 

2.000 

1.347 

2.026 

1.324 

2.053 

1.301 

2.080 

1.277 

2.108 

1.253 

2.135 

1.229 

2.164 

150 

1.579 

1.892 

1.564 

1.908 

1.550 

1.924 

1.535 

1.940 

1.519 

1.956 

1.504 

1.972 

1.489 

1.989 

1.474 

2.006 

1.458 

2.023 

1.443 

2.040 

200 

1.654 

1.885 

1.643 

1.896 

1.632 

1.908 

1.621 

1.919 

1.610 

1.931 

1.599 

1.943 

1.588 

1.955 

1.576 

1.967 

1.565 

1.979 

1.554 

1.991 

Nota:  n  =  numero  de  observaciones,  k!  =  numero  de  variables  explicativas,  excluyendo  el  termino  constante. 

Fuente:  Esta  tabla  es  una  extension  de  la  tabla  original  de  Durbin- Watson  y  se  reproduce  de  N.E.  Savin  y  K.  J.  White,  “The  Durbin- Watson  Test  for  Serial  Corre¬ 
lation  with  Extreme  Small  Samples  or  Many  Regressors”,  Econometrica,  vol.  45,  noviembre  de  1977,  pp.  1989-1996,  con  las  correcciones  de  R.W.  Farebrother, 
Econometrica,  vol.  48,  septiembre  de  1980,  p.  1554.  Se  reproduce  con  autorizacion  de  la  Sociedad  Econometrica. 


EJEMPLO  1  Si  n  =  40  y  k'  =  4,  dL  =  1 .285  y  dy  =  1 .721 .  Si  un  valor  d  calculado  es  menor  que  1 .285,  hay 

evidencia  de  correlacion  serial  positiva  de  primer  orden;  si  es  mayor  que  1 .721,  no  hay  evidencia 
de  correlacion  serial  positiva  de  primer  orden;  pero  si  d  se  encuentra  entre  el  Ifmite  inferior  y  el 
superior,  hay  evidencia  inconclusa  relacionada  con  la  presencia  o  ausencia  de  correlacion  serial 
positiva  de  primer  orden. 
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TAB  LA  D.5B  Estadistico  d  de  Durbin- Watson:  puntos  de  significance  de  dL  y  dv  en  el  nivel  de  significance  de  0.01 


n 

k'  = 

:  1 

k'  = 

2 

k'  = 

3 

k'  = 

■  4 

k'  = 

=  5 

k'-. 

=  6 

k'-- 

=  7 

k'-. 

=  8 

k'-- 

=  9 

k'  = 

:  10 

dL 

du 

dL 

du 

dL 

du 

dL 

du 

dL 

du 

dL 

du 

dL 

du 

dL 

du 

dL 

du 

dL 

du 

6 

0.390 

1.142 

7 

0.435 

1.036 

0.294 

1.676 

8 

0.497 

1.003 

0.345 

1.489 

0.229 

2.102 

9 

0.554 

0.998 

0.408 

1.389 

0.279 

1.875 

0.183 

2.433 

10 

0.604 

1.001 

0.466 

1.333 

0.340 

1.733 

0.230 

2.193 

0.150 

2.690 

11 

0.653 

1.010 

0.519 

1.297 

0.396 

1.640 

0.286 

2.030 

0.193 

2.453 

0.124 

2.892 

— 

— 

— 

— 

— 

— 

— 

— 

12 

0.697 

1.023 

0.569 

1.274 

0.449 

1.575 

0.339 

1.913 

0.244 

2.280 

0.164 

2.665 

0.105 

3.053 

— 

— 

— 

— 

— 

— 

13 

0.738 

1.038 

0.616 

1.261 

0.499 

1.526 

0.391 

1.826 

0.294 

2.150 

0.211 

2.490 

0.140 

2.838 

0.090 

3.182 

— 

— 

— 

— 

14 

0.776 

1.054 

0.660 

1.254 

0.547 

1.490 

0.441 

1.757 

0.343 

2.049 

0.257 

2.354 

0.183 

2.667 

0.122 

2.981 

0.078 

3.287 

— 

— 

15 

0.811 

1.070 

0.700 

1.252 

0.591 

1.464 

0.488 

1.704 

0.391 

1.967 

0.303 

2.244 

0.226 

2.530 

0.161 

2.817 

0.107 

3.101 

0.068 

3.374 

16 

0.844 

1.086 

0.737 

1.252 

0.633 

1.446 

0.532 

1.663 

0.437 

1.900 

0.349 

2.153 

0.269 

2.416 

0.200 

2.681 

0.142 

2.944 

0.094 

3.201 

17 

0.874 

1.102 

0.772 

1.255 

0.672 

1.432 

0.574 

1.630 

0.480 

1.847 

0.393 

2.078 

0.313 

2.319 

0.241 

2.566 

0.179 

2.811 

0.127 

3.053 

18 

0.902 

1.118 

0.805 

1.259 

0.708 

1.422 

0.613 

1.604 

0.522 

1.803 

0.435 

2.015 

0.355 

2.238 

0.282 

2.467 

0.216 

2.697 

0.160 

2.925 

19 

0.928 

1.132 

0.835 

1.265 

0.742 

1.415 

0.650 

1.584 

0.561 

1.767 

0.476 

1.963 

0.396 

2.169 

0.322 

2.381 

0.255 

2.597 

0.196 

2.813 

20 

0.952 

1.147 

0.863 

1.271 

0.773 

1.411 

0.685 

1.567 

0.598 

1.737 

0.515 

1.918 

0.436 

2.110 

0.362 

2.308 

0.294 

2.510 

0.232 

2.714 

21 

0.975 

1.161 

0.890 

1.277 

0.803 

1.408 

0.718 

1.554 

0.633 

1.712 

0.552 

1.881 

0.474 

2.059 

0.400 

2.244 

0.331 

2.434 

0.268 

2.625 

22 

0.997 

1.174 

0.914 

1.284 

0.831 

1.407 

0.748 

1.543 

0.667 

1.691 

0.587 

1.849 

0.510 

2.015 

0.437 

2.188 

0.368 

2.367 

0.304 

2.548 

23 

1.018 

1.187 

0.938 

1.291 

0.858 

1.407 

0.777 

1.534 

0.698 

1.673 

0.620 

1.821 

0.545 

1.977 

0.473 

2.140 

0.404 

2.308 

0.340 

2.479 

24 

1.037 

1.199 

0.960 

1.298 

0.882 

1.407 

0.805 

1.528 

0.728 

1.658 

0.652 

1.797 

0.578 

1.944 

0.507 

2.097 

0.439 

2.255 

0.375 

2.417 

25 

1.055 

1.211 

0.981 

1.305 

0.906 

1.409 

0.831 

1.523 

0.756 

1.645 

0.682 

1.776 

0.610 

1.915 

0.540 

2.059 

0.473 

2.209 

0.409 

2.362 

26 

1.072 

1.222 

1.001 

1.312 

0.928 

1.411 

0.855 

1.518 

0.783 

1.635 

0.711 

1.759 

0.640 

1.889 

0.572 

2.026 

0.505 

2.168 

0.441 

2.313 

27 

1.089 

1.233 

1.019 

1.319 

0.949 

1.413 

0.878 

1.515 

0.808 

1.626 

0.738 

1.743 

0.669 

1.867 

0.602 

1.997 

0.536 

2.131 

0.473 

2.269 

28 

1.104 

1.244 

1.037 

1.325 

0.969 

1.415 

0.900 

1.513 

0.832 

1.618 

0.764 

1.729 

0.696 

1.847 

0.630 

1.970 

0.566 

2.098 

0.504 

2.229 

29 

1.119 

1.254 

1.054 

1.332 

0.988 

1.418 

0.921 

1.512 

0.855 

1.611 

0.788 

1.718 

0.723 

1.830 

0.658 

1.947 

0.595 

2.068 

0.533 

2.193 

30 

1.133 

1.263 

1.070 

1.339 

1.006 

1.421 

0.941 

1.511 

0.877 

1.606 

0.812 

1.707 

0.748 

1.814 

0.684 

1.925 

0.622 

2.041 

0.562 

2.160 

31 

1.147 

1.273 

1.085 

1.345 

1.023 

1.425 

0.960 

1.510 

0.897 

1.601 

0.834 

1.698 

0.772 

1.800 

0.710 

1.906 

0.649 

2.017 

0.589 

2.131 

32 

1.160 

1.282 

1.100 

1.352 

1.040 

1.428 

0.979 

1.510 

0.917 

1.597 

0.856 

1.690 

0.794 

1.788 

0.734 

1.889 

0.674 

1.995 

0.615 

2.104 

33 

1.172 

1.291 

1.114 

1.358 

1.055 

1.432 

0.996 

1.510 

0.936 

1.594 

0.876 

1.683 

0.816 

1.776 

0.757 

1.874 

0.698 

1.975 

0.641 

2.080 

34 

1.184 

1.299 

1.128 

1.364 

1.070 

1.435 

1.012 

1.511 

0.954 

1.591 

0.896 

1.677 

0.837 

1.766 

0.779 

1.860 

0.722 

1.957 

0.665 

2.057 

35 

1.195 

1.307 

1.140 

1.370 

1.085 

1.439 

1.028 

1.512 

0.971 

1.589 

0.914 

1.671 

0.857 

1.757 

0.800 

1.847 

0.744 

1.940 

0.689 

2.037 

36 

1.206 

1.315 

1.153 

1.376 

1.098 

1.442 

1.043 

1.513 

0.988 

1.588 

0.932 

1.666 

0.877 

1.749 

0.821 

1.836 

0.766 

1.925 

0.711 

2.018 

37 

1.217 

1.323 

1.165 

1.382 

1.112 

1.446 

1.058 

1.514 

1.004 

1.586 

0.950 

1.662 

0.895 

1.742 

0.841 

1.825 

0.787 

1.911 

0.733 

2.001 

38 

1.227 

1.330 

1.176 

1.388 

1.124 

1.449 

1.072 

1.515 

1.019 

1.585 

0.966 

1.658 

0.913 

1.735 

0.860 

1.816 

0.807 

1.899 

0.754 

1.985 

39 

1.237 

1.337 

1.187 

1.393 

1.137 

1.453 

1.085 

1.517 

1.034 

1.584 

0.982 

1.655 

0.930 

1.729 

0.878 

1.807 

0.826 

1.887 

0.774 

1.970 

40 

1.246 

1.344 

1.198 

1.398 

1.148 

1.457 

1.098 

1.518 

1.048 

1.584 

0.997 

1.652 

0.946 

1.724 

0.895 

1.799 

0.844 

1.876 

0.749 

1.956 

45 

1.288 

1.376 

1.245 

1.423 

1.201 

1.474 

1.156 

1.528 

1.111 

1.584 

1.065 

1.643 

1.019 

1.704 

0.974 

1.768 

0.927 

1.834 

0.881 

1.902 

50 

1.324 

1.403 

1.285 

1.446 

1.245 

1.491 

1.205 

1.538 

1.164 

1.587 

1.123 

1.639 

1.081 

1.692 

1.039 

1.748 

0.997 

1.805 

0.955 

1.864 

55 

1.356 

1.427 

1.320 

1.466 

1.284 

1.506 

1.247 

1.548 

1.209 

1.592 

1.172 

1.638 

1.134 

1.685 

1.095 

1.734 

1.057 

1.785 

1.018 

1.837 

60 

1.383 

1.449 

1.350 

1.484 

1.317 

1.520 

1.283 

1.558 

1.249 

1.598 

1.214 

1.639 

1.179 

1.682 

1.144 

1.726 

1.108 

1.771 

1.072 

1.817 

65 

1.407 

1.468 

1.377 

1.500 

1.346 

1.534 

1.315 

1.568 

1.283 

1.604 

1.251 

1.642 

1.218 

1.680 

1.186 

1.720 

1.153 

1.761 

1.120 

1.802 

70 

1.429 

1.485 

1.400 

1.515 

1.372 

1.546 

1.343 

1.578 

1.313 

1.611 

1.283 

1.645 

1.253 

1.680 

1.223 

1.716 

1.192 

1.754 

1.162 

1.792 

75 

1.448 

1.501 

1.422 

1.529 

1.395 

1.557 

1.368 

1.587 

1.340 

1.617 

1.313 

1.649 

1.284 

1.682 

1.256 

1.714 

1.227 

1.748 

1.199 

1.783 

80 

1.466 

1.515 

1.441 

1.541 

1.416 

1.568 

1.390 

1.595 

1.364 

1.624 

1.338 

1.653 

1.312 

1.683 

1.285 

1.714 

1.259 

1.745 

1.232 

1.777 

85 

1.482 

1.528 

1.458 

1.553 

1.435 

1.578 

1.411 

1.603 

1.386 

1.630 

1.362 

1.657 

1.337 

1.685 

1.312 

1.714 

1.287 

1.743 

1.262 

1.773 

90 

1.496 

1.540 

1.474 

1.563 

1.452 

1.587 

1.429 

1.611 

1.406 

1.636 

1.383 

1.661 

1.360 

1.687 

1.336 

1.714 

1.312 

1.741 

1.288 

1.769 

95 

1.510 

1.552 

1.489 

1.573 

1.468 

1.596 

1.446 

1.618 

1.425 

1.642 

1.403 

1.666 

1.381 

1.690 

1.358 

1.715 

1.336 

1.741 

1.313 

1.767 

100 

1.522 

1.562 

1.503 

1.583 

1.482 

1.604 

1.462 

1.625 

1.441 

1.647 

1.421 

1.670 

1.400 

1.693 

1.378 

1.717 

1.357 

1.741 

1.335 

1.765 

150 

1.611 

1.637 

1.598 

1.651 

1.584 

1.665 

1.571 

1.679 

1.557 

1.693 

1.543 

1.708 

1.530 

1.722 

1.515 

1.737 

1.501 

1.752 

1.486 

1.767 

200 

1.664 

1.684 

1.653 

1.693 

1.643 

1.704 

1.633 

1.715 

1.623 

1.725 

1.613 

1.735 

1.603 

1.746 

1.592 

1.757 

1.582 

1.768 

1.571 

1.779 
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n 

k'  = 

:  11 

k'  = 

=  12 

k'  = 

=  13 

k'  = 

:  14 

k'  = 

=  15 

k'  = 

=  16 

k'  = 

=  17 

k'  = 

=  18 

k'  = 

:  19 

k’  = 

=  20 

dL 

du 

dL 

du 

dL 

du 

di 

du 

dL 

du 

dL 

du 

dL 

du 

dL 

du 

dL 

du 

dL 

du 

16 

0.060 

3.446 

17 

0.084 

3.286 

0.053 

3.506 

18 

0.113 

3.146 

0.075 

3.358 

0.047 

3.357 

19 

0.145 

3.023 

0.102 

3.227 

0.067 

3.420 

0.043 

3.601 

20 

0.178 

2.914 

0.131 

3.109 

0.092 

3.297 

0.061 

3.474 

0.038 

3.639 

21 

0.212 

2.817 

0.162 

3.004 

0.119 

3.185 

0.084 

3.358 

0.055 

3.521 

0.035 

3.671 

— 

— 

— 

— 

— 

— 

— 

— 

22 

0.246 

2.729 

0.194 

2.909 

0.148 

3.084 

0.109 

3.252 

0.077 

3.412 

0.050 

3.562 

0.032 

3.700 

— 

— 

— 

— 

— 

— 

23 

0.281 

2.651 

0.227 

2.822 

0.178 

2.991 

0.136 

3.155 

0.100 

3.311 

0.070 

3.459 

0.046 

3.597 

0.029 

3.725 

— 

— 

— 

— 

24 

0.315 

2.580 

0.260 

2.744 

0.209 

2.906 

0.165 

3.065 

0.125 

3.218 

0.092 

3.363 

0.065 

3.501 

0.043 

3.629 

0.027 

3.747 

— 

— 

25 

0.348 

2.517 

0.292 

2.674 

0.240 

2.829 

0.194 

2.982 

0.152 

3.131 

0.116 

3.274 

0.085 

3.410 

0.060 

3.538 

0.039 

3.657 

0.025 

3.766 

26 

0.381 

2.460 

0.324 

2.610 

0.272 

2.758 

0.224 

2.906 

0.180 

3.050 

0.141 

3.191 

0.107 

3.325 

0.079 

3.452 

0.055 

3.572 

0.036 

3.682 

27 

0.413 

2.409 

0.356 

2.552 

0.303 

2.694 

0.253 

2.836 

0.208 

2.976 

0.167 

3.113 

0.131 

3.245 

0.100 

3.371 

0.073 

3.490 

0.051 

3.602 

28 

0.444 

2.363 

0.387 

2.499 

0.333 

2.635 

0.283 

2.772 

0.237 

2.907 

0.194 

3.040 

0.156 

3.169 

0.122 

3.294 

0.093 

3.412 

0.068 

3.524 

29 

0.474 

2.321 

0.417 

2.451 

0.363 

2.582 

0.313 

2.713 

0.266 

2.843 

0.222 

2.972 

0.182 

3.098 

0.146 

3.220 

0.114 

3.338 

0.087 

3.450 

30 

0.503 

2.283 

0.447 

2.407 

0.393 

2.533 

0.342 

2.659 

0.294 

2.785 

0.249 

2.909 

0.208 

3.032 

0.171 

3.152 

0.137 

3.267 

0.107 

3.379 

31 

0.531 

2.248 

0.475 

2.367 

0.422 

2.487 

0.371 

2.609 

0.322 

2.730 

0.277 

2.851 

0.234 

2.970 

0.196 

3.087 

0.160 

3.201 

0.128 

3.311 

32 

0.558 

2.216 

0.503 

2.330 

0.450 

2.446 

0.399 

2.563 

0.350 

2.680 

0.304 

2.797 

0.261 

2.912 

0.221 

3.026 

0.184 

3.137 

0.151 

3.246 

33 

0.585 

2.187 

0.530 

2.296 

0.477 

2.408 

0.426 

2.520 

0.377 

2.633 

0.331 

2.746 

0.287 

2.858 

0.246 

2.969 

0.209 

3.078 

0.174 

3.184 

34 

0.610 

2.160 

0.556 

2.266 

0.503 

2.373 

0.452 

2.481 

0.404 

2.590 

0.357 

2.699 

0.313 

2.808 

0.272 

2.915 

0.233 

3.022 

0.197 

3.126 

35 

0.634 

2.136 

0.581 

2.237 

0.529 

2.340 

0.478 

2.444 

0.430 

2.550 

0.383 

2.655 

0.339 

2.761 

0.297 

2.865 

0.257 

2.969 

0.221 

3.071 

36 

0.658 

2.113 

0.605 

2.210 

0.554 

2.310 

0.504 

2.410 

0.455 

2.512 

0.409 

2.614 

0.364 

2.717 

0.322 

2.818 

0.282 

2.919 

0.244 

3.019 

37 

0.680 

2.092 

0.628 

2.186 

0.578 

2.282 

0.528 

2.379 

0.480 

2.477 

0.434 

2.576 

0.389 

2.675 

0.347 

2.774 

0.306 

2.872 

0.268 

2.969 

38 

0.702 

2.073 

0.651 

2.164 

0.601 

2.256 

0.552 

2.350 

0.504 

2.445 

0.458 

2.540 

0.414 

2.637 

0.371 

2.733 

0.330 

2.828 

0.291 

2.923 

39 

0.723 

2.055 

0.673 

2.143 

0.623 

2.232 

0.575 

2.323 

0.528 

2.414 

0.482 

2.507 

0.438 

2.600 

0.395 

2.694 

0.354 

2.787 

0.315 

2.879 

40 

0.744 

2.039 

0.694 

2.123 

0.645 

2.210 

0.597 

2.297 

0.551 

2.386 

0.505 

2.476 

0.461 

2.566 

0.418 

2.657 

0.377 

2.748 

0.338 

2.838 

45 

0.835 

1.972 

0.790 

2.044 

0.744 

2.118 

0.700 

2.193 

0.655 

2.269 

0.612 

2.346 

0.570 

2.424 

0.528 

2.503 

0.488 

2.582 

0.448 

2.661 

50 

0.913 

1.925 

0.871 

1.987 

0.829 

2.051 

0.787 

2.116 

0.746 

2.182 

0.705 

2.250 

0.665 

2.318 

0.625 

2.387 

0.586 

2.456 

0.548 

2.526 

55 

0.979 

1.891 

0.940 

1.945 

0.902 

2.002 

0.863 

2.059 

0.825 

2.117 

0.786 

2.176 

0.748 

2.237 

0.711 

2.298 

0.674 

2.359 

0.637 

2.421 

60 

1.037 

1.865 

1.001 

1.914 

0.965 

1.964 

0.929 

2.015 

0.893 

2.067 

0.857 

2.120 

0.822 

2.173 

0.786 

2.227 

0.751 

2.283 

0.716 

2.338 

65 

1.087 

1.845 

1.053 

1.889 

1.020 

1.934 

0.986 

1.980 

0.953 

2.027 

0.919 

2.075 

0.886 

2.123 

0.852 

2.172 

0.819 

2.221 

0.786 

2.272 

70 

1.131 

1.831 

1.099 

1.870 

1.068 

1.911 

1.037 

1.953 

1.005 

1.995 

0.974 

2.038 

0.943 

2.082 

0.911 

2.127 

0.880 

2.172 

0.849 

2.217 

75 

1.170 

1.819 

1.141 

1.856 

1.111 

1.893 

1.082 

1.931 

1.052 

1.970 

1.023 

2.009 

0.993 

2.049 

0.964 

2.090 

0.934 

2.131 

0.905 

2.172 

80 

1.205 

1.810 

1.177 

1.844 

1.150 

1.878 

1.122 

1.913 

1.094 

1.949 

1.066 

1.984 

1.039 

2.022 

1.011 

2.059 

0.983 

2.097 

0.955 

2.135 

85 

1.236 

1.803 

1.210 

1.834 

1.184 

1.866 

1.158 

1.898 

1.132 

1.931 

1.106 

1.965 

1.080 

1.999 

1.053 

2.033 

1.027 

2.068 

1.000 

2.104 

90 

1.264 

1.798 

1.240 

1.827 

1.215 

1.856 

1.191 

1.886 

1.166 

1.917 

1.141 

1.948 

1.116 

1.979 

1.091 

2.012 

1.066 

2.044 

1.041 

2.077 

95 

1.290 

1.793 

1.267 

1.821 

1.244 

1.848 

1.221 

1.876 

1.197 

1.905 

1.174 

1.934 

1.150 

1.963 

1.126 

1.993 

1.102 

2.023 

1.079 

2.054 

100 

1.314 

1.790 

1.292 

1.816 

1.270 

1.841 

1.248 

1.868 

1.225 

1.895 

1.203 

1.922 

1.181 

1.949 

1.158 

1.977 

1.136 

2.006 

1.113 

2.034 

150 

1.473 

1.783 

1.458 

1.799 

1.444 

1.814 

1.429 

1.830 

1.414 

1.847 

1.400 

1.863 

1.385 

1.880 

1.370 

1.897 

1.355 

1.913 

1.340 

1.931 

200 

1.561 

1.791 

1.550 

1.801 

1.539 

1.813 

1.528 

1.824 

1.518 

1.836 

1.507 

1.847 

1.495 

1.860 

1.484 

1.871 

1.474 

1.883 

1.462 

1.896 

Nota:  n  =  numero  de  observaciones. 

k'  =  numero  de  variables  explicativas,  excluyendo  el  termino  constante. 
Fuente:  Savin  y  White,  op.  cit.,  con  autorizacion  de  la  Sociedad  Econometrica. 
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TAB  LA  D.6A  Valores  criticos  de  rachas  en  la  prueba  de  rachas 


N2 


Ni 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

14 

15 

16 

17 

18 

19 

20 

2 

2 

2 

2 

2 

2 

2 

2 

2 

2 

3 

2 

2 

2 

2 

2 

2 

2 

2 

2 

3 

3 

3 

3 

3 

3 

4 

2 

2 

2 

3 

3 

3 

3 

3 

3 

3 

3 

4 

4 

4 

4 

4 

5 

2 

2 

3 

3 

3 

3 

3 

4 

4 

4 

4 

4 

4 

4 

5 

5 

5 

6 

2 

2 

3 

3 

3 

3 

4 

4 

4 

4 

5 

5 

5 

5 

5 

5 

6 

6 

7 

2 

2 

3 

3 

3 

4 

4 

5 

5 

5 

5 

5 

6 

6 

6 

6 

6 

6 

8 

2 

3 

3 

3 

4 

4 

5 

5 

5 

6 

6 

6 

6 

6 

7 

7 

7 

7 

9 

2 

3 

3 

4 

4 

5 

5 

5 

6 

6 

6 

7 

7 

7 

7 

8 

8 

8 

10 

2 

3 

3 

4 

5 

5 

5 

6 

6 

7 

7 

7 

7 

8 

8 

8 

8 

9 

11 

2 

3 

4 

4 

5 

5 

6 

6 

7 

7 

7 

8 

8 

8 

9 

9 

9 

9 

12 

2 

2 

3 

4 

4 

5 

6 

6 

7 

7 

7 

8 

8 

8 

9 

9 

9 

10 

10 

13 

2 

2 

3 

4 

5 

5 

6 

6 

7 

7 

8 

8 

9 

9 

9 

10 

10 

10 

10 

14 

2 

2 

3 

4 

5 

5 

6 

7 

7 

8 

8 

9 

9 

9 

10 

10 

10 

11 

11 

15 

2 

3 

3 

4 

5 

6 

6 

7 

7 

8 

8 

9 

9 

10 

10 

11 

11 

11 

12 

16 

2 

3 

4 

4 

5 

6 

6 

7 

8 

8 

9 

9 

10 

10 

11 

11 

11 

12 

12 

17 

2 

3 

4 

4 

5 

6 

7 

7 

8 

9 

9 

10 

10 

11 

11 

11 

12 

12 

13 

18 

2 

3 

4 

5 

5 

6 

7 

8 

8 

9 

9 

10 

10 

11 

11 

12 

12 

13 

13 

19 

2 

3 

4 

5 

6 

6 

7 

8 

8 

9 

10 

10 

11 

11 

12 

12 

13 

13 

13 

20 

2 

3 

4 

5 

6 

6 

7 

8 

9 

9 

10 

10 

11 

12 

12 

13 

13 

13 

14 

Nota:  Las  tablas  D.6A  y  D.6B  dan  los  valores  criticos  de  n  rachas  para  diversos  valores  de  N\  (simbolo  +)  y  N2  (simbolo  — ).  Para  una  prueba  de  rachas  de  una 
muestra,  cualquier  valor  de  n  igual  o  menor  que  el  que  aparece  en  la  tabla  D.6A,  o  igual  o  superior  al  que  aparece  en  la  tabla  D.6B,  es  significative)  en  el  nivel 
de  0.05. 

Fuente:  Sidney  Siegel,  Nonparametric  Statistics  for  the  Behavioral  Sciences,  McGraw-Hill,  NuevaYork,  1956,  tabla  F,  pp.  252-253.  Siegel  adapto  las  tablas  de  la 
fuente  original:  Frieda  S.  Swed  y  C.  Eisenhart,  “Tables  for  Testing  Randomness  of  Grouping  in  a  Sequence  of  Alternatives”,  Annals  of  Mathematical  Statistics, 
vol.  14,  1943.  Se  reproducen  con  permiso  de  McGraw-Hill  Book  Company  y  de  Annals  of  Mathematical  Statistics. 


TABLA  D.6B  Valores  criticos  de  rachas  en  la  prueba  de  rachas 


N2 


/Vi  2 

3  4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

14 

15 

16 

17 

18 

19 

20 

2 

3 

4 

9 

9 

5 

9 

10 

10 

11 

11 

6 

9 

10 

11 

12 

12 

13 

13 

13 

13 

7 

11 

12 

13 

13 

14 

14 

14 

14 

15 

15 

15 

8 

11 

12 

13 

14 

14 

15 

15 

16 

16 

16 

16 

17 

17 

17 

17 

17 

9 

13 

14 

14 

15 

16 

16 

16 

17 

17 

18 

18 

18 

18 

18 

18 

10 

13 

14 

15 

16 

16 

17 

17 

18 

18 

18 

19 

19 

19 

20 

20 

11 

13 

14 

15 

16 

17 

17 

18 

19 

19 

19 

20 

20 

20 

21 

21 

12 

13 

14 

16 

16 

17 

18 

19 

19 

20 

20 

21 

21 

21 

22 

22 

13 

15 

16 

17 

18 

19 

19 

20 

20 

21 

21 

22 

22 

23 

23 

14 

15 

16 

17 

18 

19 

20 

20 

21 

22 

22 

23 

23 

23 

24 

15 

15 

16 

18 

18 

19 

20 

21 

22 

22 

23 

23 

24 

24 

25 

16 

17 

18 

19 

20 

21 

21 

22 

23 

23 

24 

25 

25 

25 

17 

17 

18 

19 

20 

21 

22 

23 

23 

24 

25 

25 

26 

26 

18 

17 

18 

19 

20 

21 

22 

23 

24 

25 

25 

26 

26 

27 

19 

17 

18 

20 

21 

22 

23 

23 

24 

25 

26 

26 

27 

27 

20 

17 

18 

20 

21 

22 

23 

24 

25 

25 

26 

27 

27 

28 
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EJEMPLO  2  En  una  sucesion  de  30  observaciones  consistentes  en  20  signos  +  (=  N i)  y  en  10  signos  — 

(=  N2),  los  valores  criticos  de  las  rachas  en  el  nivel  de  significancia  de  0.05  son  9  y  20,  como 
indican  las  tablas  D.6A  y  D.6B,  respectivamente.  Por  consiguiente,  si  en  una  aplicacion  se  en- 
cuentra  que  el  numero  de  rachas  es  igual  o  menor  que  9  o  igual  o  mayor  que  20,  se  rechaza  la 
hipotesis  (en  un  nivel  de  significancia  de  0.05)  de  que  la  secuencia  observada  es  aleatoria. 


TABLA  D.7  Valores  criticos  Dickey-Fuller  t  (=  r)  a  1%  y  5%,  asi  como  valores  F  para  pruebas  de  raiz  unitaria 


Tamario  de 
la  muestra 

t  * 
lnc 

tc* 

tc* 

ft 

ft 

1% 

5% 

1% 

5% 

1% 

5% 

1% 

5% 

1% 

5% 

25 

-2.66 

-1.95 

-3.75 

-3.00 

-4.38 

-3.60 

10.61 

7.24 

8.21 

5.68 

50 

-2.62 

-1.95 

-3.58 

-2.93 

-4.15 

-3.50 

9.31 

6.73 

7.02 

5.13 

100 

-2.60 

-1.95 

-3.51 

-2.89 

-4.04 

-3.45 

8.73 

6.49 

6.50 

4.88 

250 

-2.58 

-1.95 

-3.46 

-2.88 

-3.99 

-3.43 

8.43 

6.34 

6.22 

4.75 

500 

-2.58 

-1.95 

-3.44 

-2.87 

-3.98 

-3.42 

8.34 

6.30 

6.15 

4.71 

OO 

-2.58 

-1.95 

-3.43 

-2.86 

-3.96 

-3.41 

8.27 

6.25 

6.09 

4.68 

*  Los  subindices  nc,  c  y  tc  denotan,  respectivamente,  que  no  hay  termino  constante,  que  hay  termino  constante  y  que  esta  presente  un  termino  constante  y  uno  de  ten- 
dencia  en  la  regresion  (21.9.5). 

t  Los  valores  criticos  de  F  son  para  las  hipotesis  conjuntas  en  las  que  los  terminos  constante  y  <5  en  (21 .9.5)  son  al  mismo  tiempo  cero. 

*  Los  valores  criticos  de  F  son  para  las  hipotesis  conjuntas  en  las  cuales  los  terminos  constante,  de  tendencia  y  <5  en  (21.9.5)  son  al  mismo  tiempo  iguales  a  cero. 

Fuente:  Adaptado  de  W.A.  Fuller,  Introduction  to  Statistical  Time  Series,  John  Wiley  &  Sons,  Nueva  York,  1976,  p.  373  (para  la  prueba  r),  y  D.A.  Dickey  y  W.A.  Fuller, 
“Likelihood  Ratio  Statistics  for  Autoregressive  Time  Series  with  a  Unit  Root”,  Econometrica,  vol.  49,  1981,  p.  1063. 


Apendice 


Resultados 
de  computadora  de 

E Views,  MINITAB, 

Excel  y  STATA 

En  este  apendice  presentamos  los  resultados  de  computadora  con  EViews,  MINITAB,  Excel  y 
STATA,  algunos  paquetes  estadlsticos  populares  para  regresion  y  rutinas  estadlsticas  relaciona- 
das.  Se  emplean  los  datos  de  la  tabla  E.  1  del  sitio  Web  del  libro  para  ilustrar  los  resultados  que 
arrojan  estos  paquetes.  La  tabla  E.l  proporciona  datos  sobre  la  tasa  de  participacion  en  la  fuerza 
laboral  civil  (CLFPR),  la  tasa  de  desempleo  civil  (CUNR)  y  el  salario  promedio  real  por  hora  en 
dolares  de  1982  (AHE82)  para  la  economia  de  Estados  Unidos  de  1980  a  2002. 

Aunque  en  muchos  aspectos  los  resultados  basicos  de  la  regresion  son  parecidos  en  todos 
estos  paquetes,  hay  diferencias  de  forma.  Algunos  paquetes  presentan  resultados  de  varios  digi- 
tos,  mientras  que  otros  los  aproximan  a  cuatro  o  cinco  digitos.  Algunos  paquetes  proporcionan 
directamente  las  tablas  del  analisis  de  varianza  (ANOVA),  en  tanto  que  en  otros  es  necesario  de- 
rivarlas.  Tambien  existen  diferencias  en  algunos  resumenes  estadlsticos  de  los  diversos  paquetes. 
Escapa  al  proposito  de  este  apendice  enumerar  todas  las  diferencias  en  estos  paquetes  estadisti- 
cos.  Recomendamos  al  lector  consultar  informacion  en  los  sitios  Web  de  estos  paquetes. 


E.l  EViews 


Con  la  version  6  de  EViews  efectuamos  la  regresion  de  CLFPR  sobre  CUNR  y  AHE82  y  obtu- 
vimos  los  resultados  de  la  figura  E.L 

Es  el  formato  normal  en  que  se  presentan  los  resultados  de  EViews.  La  primera  parte  de  esta 
figura  presenta  los  coeficientes  de  regresion,  los  errores  estandar  estimados,  los  valores  t  segun  la 
hipotesis  nula  de  que  los  valores  poblacionales  correspondientes  de  estos  coeficientes  son  cero, 
y  los  valores  p  de  estos  valores  /.  Enseguida  se  presentan  R2  y  R1  ajustada.  El  otro  resumen  en  la 
primera  parte  relaciona  el  error  estandar  de  la  regresion,  la  suma  de  cuadrados  residual  (SCR) 
y  el  valor  F  para  probar  la  hipotesis  de  que  los  (verdaderos)  valores  de  todos  los  coeficientes  de 
pendiente  son,  simultaneamente,  iguales  a  cero.  A  menudo  se  usan  los  criterios  de  informacion 
de  Akaike  y  Schwarz  para  elegir  entre  modelos  rivales.  Cuanto  mas  bajo  sea  el  valor  de  estos 
criterios,  mejor  sera  el  modelo.  El  metodo  de  maxima  verosimilitud  (MV)  es  una  alternativa  al 
metodo  de  minimos  cuadrados.  Asi  como  en  MCO  se  encuentran  los  estimadores  que  reducen  la 
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FIGURA  E.1 

Resultados  de  EViews  de 
la  regresion  de  la  partici¬ 
pation  en  la  fuerza  laboral 
civil. 


Variable  dependiente:  CLFPR 
Metodo:  Mfnimos  cuadrados 
Muestra:  1980-2002 
Observaciones  incluidas:  23 


Variable 

Coeficiente 

Error  estandar 

Estadfstico  t 

Prob. 

c 

80.90133 

4.756195 

17.00967 

0.0000 

CUNR 

-0.671348 

0.082720 

-8.115928 

0.0000 

AHE82 

-1.404244 

0.608615 

-2.307278 

0.0319 

R  cuadrada 

0.772765 

Media  de  la  variable  dependiente 

65.89565 

R  cuadrada  ajustada 

0.750042 

Desviacion  estandar  de  la  variable  dependiente 

1.168713 

Error  estandar  de  la  regresion 

0.584308 

Criterio  de  informacion  de  Akaike 

1.884330 

Suma  de  cuadrados  residual 

6.828312 

Criterio  de  Schwarz 

2.032438 

Log  verosimilitud 

-18.66979 

Estadfstico  F 

34.00731 

Estad.  Durbin- Watson 

0.787625 

Prob.  (estadfstico  F) 

0.000000 

Obs. 

Real 

Ajustado 

Residuo 

Grafico  de  residuos 

1980 

63.8000 

65.2097 

-1.40974 

1981 

63.9000 

65.0004 

-1.10044 

1982 

64.0000 

63.6047 

0.39535 

1983 

64.0000 

63.5173 

0.48268 

1984 

64.4000 

64.9131 

-0.51311 

1985 

64.8000 

65.1566 

-0.35664 

1986 

65.3000 

65.2347 

0.06526 

1987 

65.6000 

65.8842 

-0.28416 

1988 

65.9000 

66.4103 

-0.51027 

1989 

66.5000 

66.6148 

-0.11476 

1990 

66.5000 

66.5819 

-0.08186 

1991 

66.2000 

65.8745 

0.32546 

1992 

66.4000 

65.4608 

0.93923 

1993 

66.3000 

65.8917 

0.40834 

1994 

66.6000 

66.4147 

0.18530 

1995 

66.6000 

66.7644 

-0.16441 

1996 

66.8000 

66.8425 

-0.04251 

1997 

67.1000 

67.0097 

0.09032 

1998 

67.1000 

66.9974 

0.10263 

1999 

67.1000 

67.0443 

0.05569 

2000 

67.2000 

67.1364 

0.06355 

2001 

56.9000 

66.4589 

0.44105 

2002 

66.6000 

65.5770 

1.02304 

Serie:  Residuos 
Muestra:  1980-2002 
Observaciones:  23 


Media 

Mediana 

Maximo 

Mfnimo 

Desv.  est. 

Asimetrfa 

Curtosis 


—  1.39e-14 
0.063552 
1.023040 
-1.409735 
0.557116 
-0.593013 
3.752631 


Jarque-Bera  1.890898 
Probabilidad  0.388505 
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suma  de  cuadrados  de  los  errores,  en  MV  tratamos  de  encontrar  los  estimadores  que  maximizan 
la  posibilidad  de  observar  la  muestra  en  cuestion.  Segun  el  supuesto  de  normalidad  del  termino 
de  error,  MCO  y  MV  proporcionan  estimaciones  identicas  de  los  coeficientes  de  regresion.  Con 
el  estadistico  de  Durbin- Watson  se  averigua  si  hay  correlacion  serial  de  primer  orden  en  los  ter¬ 
mino  s  de  error. 

La  segunda  parte  de  los  resultados  de  EViews  proporciona  los  valores  reales  y  ajustados  de 
la  variable  dependiente  y  la  diferencia  entre  los  dos,  que  representa  los  residuos.  La  grafica 
de  estos  residuos  aparece  a  un  lado  de  estos  resultados  con  una  linea  vertical  que  denota  cero.  Los 
puntos  a  la  derecha  de  la  linea  vertical  son  residuos  positivos  y  los  que  aparecen  a  la  izquierda 
residuos  negativos. 

La  tercera  parte  de  los  resultados  presenta  el  histograma  de  los  residuos  junto  con  un  resumen 
estadistico.  Da  el  estadistico  de  Jarque-Bera  (JB)  para  probar  la  normalidad  de  los  terminos  de 
error  y  tambien  presenta  la  probabilidad  de  obtener  los  estadisticos  indicados.  Cuanto  mas  alta 
sea  la  probabilidad  de  obtener  el  estadistico  JB  observado,  mayor  sera  la  evidencia  en  favor  de  la 
hipotesis  nula  de  que  los  terminos  de  error  estan  distribuidos  normalmente. 

Observe  que  EViews  no  proporciona  directamente  la  tabla  de  analisis  de  varianza  (ANOVA), 
pero  se  genera  con  facilidad  a  partir  de  los  datos  sobre  la  suma  de  cuadrados  residual,  la  suma  de 
cuadrados  total  (que  a  su  vez  debe  derivarse  de  la  desviacion  estandar  de  la  variable  dependiente) 
y  los  grados  de  libertad  asociados.  El  valor  F  obtenido  en  este  ejercicio  debe  ser  igual  al  valor  F 
reportado  en  la  primera  parte  de  la  tabla. 


E.2  MINITAB 


Con  la  version  15  de  MINITAB  y  los  mismos  datos  obtuvimos  los  resultados  de  la  regresion  de 
la  figura  E.2. 

MINITAB  presenta  primero  la  regresion  multiple  estimada.  Esto  va  seguido  de  una  lista  de 
variables  predictoras  (es  decir,  explicativas),  los  coeficientes  de  regresion  estimados,  los  errores 
estandar,  los  valores  T  (  — t)  y  los  valores  p.  En  estos  resultados  S  representa  el  error  estandar  de 
la  estimacion,  y  los  valores  de  R2  y  R2  ajustada  se  presentan  en  forma  porcentual. 

A  continuation  se  presenta  la  tabla  ANOVA  habitual.  Una  caracteristica  de  la  tabla  ANOVA  es 
que  desglosa  la  regresion,  o  suma  de  cuadrados  explicada,  entre  las  variables  predictoras.  Asi,  de 
la  suma  de  cuadrados  total  de  la  regresion  de  23.226,  la  parte  correspondiente  a  CUNR  es  21.404 
y  la  que  corresponde  a  AHE82  es  1 .822,  lo  que  indica  que,  en  terminos  relativos,  CUNR  tiene  un 
efecto  mas  importante  en  CLFPR  que  AHE82. 

Una  caracteristica  exclusiva  de  los  resultados  de  la  regresion  de  MINITAB  es  que  reportan 
las  observaciones  “atipicas”,  es  decir,  las  observaciones  de  algun  modo  diferentes  del  resto  de  las 
observaciones  de  la  muestra.  Se  hace  referencia  a  esto  en  la  grafica  de  residuos  presentada  en  los 
resultados  de  EViews,  pues  muestra  que  las  observaciones  1  y  23  se  encuentran  muy  lejos  de  la 
linea  de  cero  que  ahi  se  presenta.  MINITAB  tambien  produce  una  grafica  de  residuos  parecida  a 
la  de  EViews.  El  termino  Resid  est  en  estos  resultados  significa  residuos  estandarizados,  es  decir, 
los  residuos  divididos  entre  S,  el  error  estandar  de  la  estimacion. 

Al  igual  que  EViews,  MINITAB  tambien  presenta  el  estadistico  de  Durbin- Watson  y  el  his¬ 
tograma  de  residuos.  El  histograma  es  una  representation  visual.  Si  su  forma  se  parece  a  la 
distribucion  normal,  es  probable  que  los  residuos  esten  distribuidos  normalmente.  La  grafica  de 
probabilidad  normal  cumple  el  mismo  proposito.  Si  los  residuos  estimados  se  encuentran  aproxi- 
madamente  en  linea  recta,  podemos  afirmar  que  estan  distribuidos  normalmente.  El  estadistico  de 
Anderson-Darling  (AD),  un  estadistico  asociado  a  la  grafica  de  la  probabilidad  normal,  prueba  la 
hipotesis  de  que  la  variable  en  consideration  (en  este  caso,  los  residuos)  esta  distribuida  normal¬ 
mente.  Si  el  valor  p  del  estadistico  AD  calculado  es  razonablemente  alto,  por  ejemplo,  superior 
a  0.10,  concluimos  que  la  variable  esta  distribuida  normalmente.  En  este  ejemplo,  el  estadistico 
AD  tiene  un  valor  de  0.481  con  un  valor  p  de  alrededor  de  0.21  o  21%.  Por  tanto,  la  conclusion 
es  que  los  residuos  obtenidos  del  modelo  de  regresion  tienen  distribucion  normal. 
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FIGURA  E.2  Resultados  de  MINITAB  de  la  tasa  de  participation  en  la  fuerza  laboral  civil. 

Analisis  de  regresion:  CLFPR  sobre  CUNR,  AHE82 

La  ecuacion  de  regresion  es: 

CLFPR  =  81.0  -  0.672  CUNR  -  1.41  AHE82 


Predictor 

Coef. 

SE  coef. 

T 

P 

Constante 

80.951 

4.770 

16.97 

0.000 

CUNR 

-0.67163 

0.08270 

-8.12 

0.000 

AHE82 

-1.4104 

0.6103 

-2.31 

0.032 

S  =  0.584117 

R cuadrada 

=  77.3% 

R  cuadrada  (ajust.)  =  75% 

Analisis  de  varianza 

Origen 

GL 

SC 

SP 

F 

P 

Regresion 

2 

23.226 

11.613 

34.04 

0.000 

Error  residual 

20 

6.824 

0.341 

Total 

22 

30.050 

Origen  GL 

SC  sec. 

CUNR  1 

21.404 

AHE82  1 

1.822 

Observaciones  atfpicas 

Obs.  CUNR 

CLFPR 

Ajustado 

ES  ajustado 

Residuo 

Resid  est. 

1  7.10 

63.800 

65.209 

0.155 

-1.409 

-2.50R 

23  5.80 

66.600 

65.575 

0.307 

1.025 

2.06R 

R  denota  una  observation  con  un  residuo  estandarizado  grande. 
Estadistico  de  Durbin-Watson  =  0.  787065 


Histograma  de  residuos 

(la  respuesta  es  CLFPR) 


Grafica  de  probabilidad  de  RESI1 

Normal 


Media 

-4.479511 

Desv.  est. 

0.5569 

N 

23 

AD 

0.481 

Valor  p 

0.210 

E.3  Excel 


Con  Microsoft  Excel  obtuvimos  los  resultados  de  la  regresion  de  la  tabla  E.2. 

Excel  presenta  primero  un  resumen  estadistico,  como  R2.  R  multiple,  que  es  la  raiz  cuadrada 
(positiva)  de  R2,  R2  ajustada  y  el  error  estandar  de  la  estimation.  Luego  presenta  la  tabla  ANOVA. 
A  continuation  presenta  los  coeficientes  estimados,  los  errores  estandar,  los  valores  t  de  los  co- 
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TAB  LA  E.2 

Resultados  de  Excel  de 
la  tasa  de  participation 
en  la  fuerza  laboral  civil 


eficientes  estimados  y  sus  valores  p.  Tambien  proporciona  los  valores  reales  y  estimados  de  la 
variable  dependiente  y  la  grafica  de  residuos,  as!  como  la  grafica  de  probabilidad  normal. 

Una  caracterlstica  unica  de  Excel  es  que  proporciona  el  intervalo  de  confianza  a  95%  (o  cual- 
quier  porcentaje  especificado)  de  los  verdaderos  valores  de  los  coeficientes  estimados.  Asl,  el 
valor  estimado  del  coeficiente  de  CUNR  es  —0.671631  y  el  intervalo  de  confianza  del  verdade- 
ro  valor  del  coeficiente  de  CUNR  es  (—0.84415  a  —0.4991 12).  Esta  informacion  es  muy  valiosa 
para  las  pruebas  de  hipotesis. 

E.4  STATA 


Resumen  de  resultados 


Estadisticas  de  la  regresion 


R  multiple 
R  cuadrada 
R  ajustada 
Error  estandar 
Observacion 


0.879155 

0.772914 

0.750205 

0.584117 

23 


AN  OVA 


Regresion 

Residuo 

Total 


gi 

2 

20 

22 


SC 

23.22572 

6.823846 

30.04957 


SP 

11.61286 

0.341192 


34.03611 


Significancia  de  F 

3.65E-0  7 


Coeficiente 

Error 

estandar 

Est.  t 

Valor  p 

95% 

inferior 

95% 

superior 

Intercept 

80.95122 

4.770337 

16.96971 

2.42E-1  3 

71.00047 

90.90196 

CUNR 

-0.671631 

0.082705 

-8.120845 

9.24E-08 

-0.84415 

-0.499112 

AHE82 

-1.410432 

0.610348 

-2.310867 

0.031626 

-2.683594 

-0.13727 

Con  STATA  obtuvimos  los  resultados  de  la  regresion  de  la  tabla  E.3. 

STATA  presenta  primero  la  tabla  del  analisis  de  varianza  junto  con  un  resumen  de  estadisticos, 
como  R2,  R2  ajustada  y  la  raiz  del  error  cuadratico  medio  (ECM),  que  es  simplemente  el  error 
estandar  de  la  regresion. 

Enseguida  proporciona  los  valores  de  los  coeficientes  estimados,  sus  errores  estandar  y  va¬ 
lores  t,  y  los  valores  p  de  los  estadisticos  t,  asi  como  el  intervalo  de  confianza  a  95%  de  cada 
coeficiente  de  regresion,  de  forma  similar  a  los  resultados  de  Excel. 


E.5  Comentarios  finales 


Presentamos  solo  los  resultados  basicos  de  estos  paquetes  para  ilustrar  el  ejemplo.  Sin  embargo, 
cabe  senalar  que  los  paquetes  como  EViews  y  STATA  son  muy  amplios  y  contienen  muchas  de 
las  tecnicas  econometricas  que  estudiamos  en  este  libro.  Una  vez  que  aprende  a  entrar  a  estos  pa¬ 
quetes,  la  ejecucion  de  las  diversas  subrutinas  es  cuestion  de  practica.  Si  desea  seguir  estudiando 
econometria,  es  conveniente  que  adquiera  uno  o  mas  de  estos  paquetes. 
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TABLA  E.3 

Resultados  de  STATA  de 
la  tasa  de  participacion 
en  la  fuerza  laboral  civil 


tm 


./  /  / _ /  /  /_ 

Estadfstica/analisis  de  datos 


_/ 

./  8.0 


regresion  de  clfpr  sobre  cunr  ahe82 


./  /  / _ /  /  / _ / 

Estadfstica/analisis  de  datos 
Proyecto:  Datos  de  la  tabla  E.1 


Copyright  1984-2003 

Stata  Corporation 

4905  Lakeway  Drive 

College  Station,  Texas  77845  USA 

800-STATA-PC  http://www.stata.com 

979-696-4600  stata@stata.com 

979-696-4601  (fax) 


Origen 

SC 

gi 

SP 

F(2,  20) 

Prob  >  F 

=  34.04 
=  0.0000 

Modelo 

23.2256929 

2 

11.6128465 

R  cuadrada 

=  0.7729 

Residuo 

6.82384072 

20 

.341192036 

R  cuadrada  ajust. 

=  0.7502 

Total 

30.0495337 

22 

1.36588789 

Rafz  de  ECM 

=  .58412 

clfpr 

Coef. 

Error  estandar 

t 

P>\t\ 

[Intervalo  de  conf.  a  95%] 

cunr 

-.6716305 

.0827045 

-8.12 

0.000 

-.8441491 

-.4991119 

ahe82 

-1.410433 

.6103473 

-2.31 

0.032 

-2.683595 

-.1372707 

_cons 

80.95122 

4.770334 

16.97 

0.000 

71.00048 

90.90197 
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Datos  economicos 
en  la  World  Wide 
Web* 

Economic  Statistics  Briefing  Room:  Es  una  fuente  excelente  de  datos  sobre  producto,  ingreso, 
empleo,  desempleo,  utilidades,  produccion  y  actividades  empresariales,  asi  como  de  precios  y 
dinero,  creditos  y  mercados  de  valores,  y  estadisticas  internacionales. 

http://www.whitehouse.gov/fsbr/esbr.htm 

Federal  Reserve  System  Beige  Book:  Proporciona  un  resumen  de  las  condiciones  actuales  de  la 
economla  por  cada  distrito  de  la  Reserva  Federal.  Actualmente  existen  12  distritos  de  la  Reserva 
Federal. 

http://www.federalreserve.gov/FOM/BEIGEBOOK 

Pagina  del  National  Bureau  of  Economic  Research  (NBER):  Este  instituto  privado  de  investi¬ 
gation  economica,  que  goza  de  mucho  prestigio  y  reconocimiento,  tiene  una  gran  cantidad 
de  datos  sobre  precios  de  activos,  mano  de  obra,  productividad,  oferta  de  dinero,  indicadores  de 
ciclos  economicos,  etc.  NBER  proporciona  muchos  enlaces  con  otros  sitios  Web. 

http://www.nber.org 

Panel  Study:  Proporciona  datos  de  encuestas  longitudinales  sobre  muestras  representativas  de 
individuos  y  familias  estadounidenses.  Estos  datos  se  recopilan  anualmente  desde  1968. 

http://psidonline.isr.umich.edu/ 

Resources  for  Economists  on  the  Internet:  Fuente  muy  completa  de  informacion  y  datos  sobre 
muchas  actividades  economicas  que  tiene  enlaces  con  gran  cantidad  de  sitios  Web.  Es  una  fuente 
muy  valiosa  para  los  economistas  academicos  y  no  academicos. 

http://rfe.org/ 

American  Stock  Exchange:  Dispone  de  informacion  sobre  las  casi  700  companias  que  cotizan  en 
el  segundo  mercado  bursatil  mas  grande  del  mundo. 

http://www.amex.com/ 

Pagina  del  Bureau  of  Economic  Analysis  (BEA):  Esta  oficina  del  Departamento  de  Comercio  de 
Estados  Unidos,  que  publica  Survey  of  Current  Business,  es  una  excelente  fuente  de  datos  sobre 
todo  tipo  de  actividades  economicas. 

http://www.bea.gov/ 

Publicaciones  de  la  CIA:  En  esta  pagina  se  puede  consultar  el  World  Fact  Book  (  anuario) 
y  el  Handbook  of  International  Statistics. 

http://www.cia.gov/library/publications 


‘Adaptado  de  Annual  Editions:  Microeconomics  98/99,  ed.  Don  Cole,  Dushkin/McGraw-Hill,  Connecticut, 

1 998.  Debe  senalarse  que  esta  lista  no  es  exhaustiva.  Las  fuentes  aquf  incluidas  se  actualizan  continuamente. 
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Energy  Information  Administration  (DOE):  Contiene  informacion  economica  y  datos 
sobre  cada  categoria  de  combustibles. 

http://www.eia.doe.gov/ 

FRED  Database:  El  Banco  de  la  Reserva  Federal  de  St.  Louis  publica  datos  historicos 
economicos  y  sociales  en  los  que  se  incluyen  tasas  de  interes,  indicadores  monetarios  y 
de  negocios,  tipos  de  cambio,  etcetera. 

http://research.stlouisfed.org/fred2/ 

International  Trade  Administration:  Ofrece  muchos  enlaces  Web  con  estadisticas  sobre 
comercio,  programas  internacionales,  etcetera. 

http://trade.gov/index.asp 

STAT-USA  Databases:  El  National  Trade  Data  Bank  representa  la  fuente  mas  completa 
de  datos  sobre  comercio  internacional  e  informacion  sobre  fomento  a  la  exportacion. 
Cuenta  con  una  gran  cantidad  de  datos  sobre  condiciones  demograficas,  politicas  y  so¬ 
cioeconomicas  en  distintos  paises. 

http://www.stat-usa.gov/ 

Statistical  Resources  on  the  Web/Economics:  Es  una  excelente  fuente  de  datos  estadis- 
ticos  cotejados  de  diversas  dependencias  federales  estadounidenses,  indicadores  econo¬ 
micos,  la  Junta  de  la  Reserva  Federal,  datos  sobre  precios  al  consumidor  y  enlaces  Web 
con  otras  fuentes. 

http://www.lib.umich.edu/govdocs/stats.html 

Bureau  of  Labor  Statistics:  La  pagina  principal  contiene  datos  relacionados  con  diversos 
aspectos  del  empleo,  desempleo  y  salarios;  proporciona  tambien  enlaces  con  otros  si- 
tios  Web  de  estadisticas. 

http://www.stats.bls.gov/ 

Pagina  de  U.S.  Census  Bureau:  Es  la  fuente  primordial  de  datos  sociales,  demograficos 
y  economicos  sobre  ingreso,  empleo,  distribucion  del  ingreso  y  pobreza. 

http://www.census.gov/ 

General  Social  Survey:  Encuesta  anual  mediante  entrevistas  personales  sobre  las  fa- 
milias  estadounidenses,  la  cual  empezo  a  realizarse  en  1972.  Mas  de  35  000  familias  han 
respondido  a  unas  2  500  preguntas  que  abarcan  una  gran  variedad  de  datos. 

http://www.norc.org/GSS+website/ 

Institute  for  Research  on  Poverty:  Datos  recopilados  por  un  centra  de  investigacion  uni- 
versitario,  no  lucrativo  y  apolitico,  respecto  de  la  pobreza  y  la  desigualdad  social. 

http://www.irp.wisc.edu/ 

Social  Security  Administration:  Sitio  web  oficial  de  la  Social  Security  Administration 

que  contiene  una  gran  variedad  de  datos. 

http://www.ssa.gov/ 
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